武藤?
本研究は前半と後半に分かれ、前半は教師なしのクラスタリング。後半は教師ありのクラス分類を行っている
予測したいのは厳密には酵素ではなくEC番号になる(EC番号が「候補」となり、その後のスクリーニングでそのEC番号から1つを選んでもらう)
ケモインフォマティクス:
酵素の探索にしても、化学反応の設計にしてもコンピュータで化合物を扱えると何かと便利→コンピュータが認識できる形で化合物を表現する技法などの大全
バージョン取得
python -V
rdkit チャネル作成
conda create -n rdkit python=X.X.X -y
※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)
conda activate rdkit
rdkitライブラリの導入(pipでは不可)
conda install rdkit -c conda-forge
jupyterカーネル導入
pip install jupyter environment_kernels
ケモインフォマティクスの分野
ケモインフォマティクスの基礎
{https://www.amano-enzyme.co.jp/corporate/foundation/pdf/19/pg09.pdf},
タンパク質工学の話
【手順】
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t", col_types = "cc")
【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓
各サイトからスクレイピングした際,文章の結合ができない
→遺伝子配列同士を結合させると意味のないものになってしまう
自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして,出てきた遺伝子でDBを作るという手もある
(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し,隣接行列取得
長い配列がある疾患のDNAとしたとき,その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし,出てきたそれぞれの配列を辞書DBに蓄積する.
http://rest.kegg.jp/list/organism
http://rest.kegg.jp/link/pathway/hsa
http://rest.kegg.jp/list/pathway
(通常サイト)>>>https://www.genome.jp/kegg/pathway.html
https://sites.google.com/site/scriptofbioinformatics/cytoscape-guan-xi/kgml-jie-weideno-zuo-ye-perl
https://blast.ncbi.nlm.nih.gov/Blast.cgi
データセット:DARPA1998(TCPdumpしたトラフィックデータ)
↓
1分単位のパケット数を時系列特徴量とした
↓
対数差分系列データへ変換&標準化
→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
(変数間の直接相関を表す)を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso
1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた
3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)
作ったグラフにGraphical Lasso を適用して