卒業研究(武藤) の履歴(No.6) | 奥原研究室・Rene研究室ログ

有機合成に用いる酵素の提示支援

KEGG COMPOUNDに収録されている化合物リストを取得(CXXXXX番号)
CXXXXXをPubChemのSID(PubChem Substanceの情報)に変換
SIDをCID(PubChem Compound)に変換し，kegg_CID,pubchemSID&CIDの対応表を出力する
重複pubchemSIDリストを取得する(pubchemCIDが一意なのに対し，pubchemSIDにはダブりがあるためその確認)
(注)途中手動で行う部分が入るため，rの対話モードで1行ずつコピペ実行すること推奨
→「<-」が代入になるのでそれが基準(%>%は連続代入なので分割しないこと)

【手順】

31行目までを順次実行(kegg_CID,pubchemSIDの対応表csvを取得)
最後の対応表,重複pubchemSIDリストを作るため，PubChem Identifier Exchange Service
(https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchange.cgi)でSIDをCIDに変換する(以下のその手順)
- 対応表csvの"pubchem_SID"列の要素だけをを新しいcsvにコピペする
- 「Input ID List」でSIDsにして，作ったcsvをファイル選択
- 「OperatorType」Same CID，「Output IDs」CIDs，「Output Method」Two column，「Compression」No compressionにしてSubmit Jobを押下
- 変換後txtファイルのリンクに飛び，右クリックから「名前を付けて保存」
- 保存したtxt内の1行目にpubchem_SID(Tabキーのスペース)pubchem_CID の文字列を挿入しておく
ソースコード内↓の行の.txt部分を作成したSID・CIDリストのtxt名に変更
```
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t", col_types = "cc")
```
kegg_CID,pubchemSID&CIDの対応表と重複pubchemSIDを確認する

【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓

各サイトからスクレイピングした際，文章の結合ができない

→遺伝子配列同士を結合させると意味のないものになってしまう自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして，出てきた遺伝子でDBを作るという手もある

(1)各リンク内の遺伝子配列に対して，辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し，隣接行列取得

長い配列がある疾患のDNAとしたとき，その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし，出てきたそれぞれの配列を辞書DBに蓄積する．

データセット：DARPA1998(TCPdumpしたトラフィックデータ)
↓
１分単位のパケット数を時系列特徴量とした
↓
対数差分系列データへ変換＆標準化

→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
（変数間の直接相関を表す）を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso

1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた

3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)

作ったグラフにGraphical Lasso を適用して