武藤?
【手順】
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t", col_types = "cc")
【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓
各サイトからスクレイピングした際,文章の結合ができない
→遺伝子配列同士を結合させると意味のないものになってしまう
自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして,出てきた遺伝子でDBを作るという手もある
(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し,隣接行列取得
長い配列がある疾患のDNAとしたとき,その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし,出てきたそれぞれの配列を辞書DBに蓄積する.
データセット:DARPA1998(TCPdumpしたトラフィックデータ)
↓
1分単位のパケット数を時系列特徴量とした
↓
対数差分系列データへ変換&標準化
→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
(変数間の直接相関を表す)を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso
1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた
3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)
作ったグラフにGraphical Lasso を適用して