武藤?

有機合成に用いる酵素の提示支援 

データ収集(.RはR言語で実装されたソースコード) 

CompoundIDs.R 

Reference 

第1章 

【手順】






テキストマイニングによる遺伝子間の関係性の可視化(没2) 

【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓

各サイトからスクレイピングした際,文章の結合ができない

→遺伝子配列同士を結合させると意味のないものになってしまう 自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして,出てきた遺伝子でDBを作るという手もある

案1:従来にほぼ近づけた方法 

(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し,隣接行列取得

案2:↑の◎ 

長い配列がある疾患のDNAとしたとき,その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし,出てきたそれぞれの配列を辞書DBに蓄積する.

スパース(疎)構造学習(没1) 

1.侵入検知システム(機械学習型IDS) 

データセット:DARPA1998(TCPdumpしたトラフィックデータ)

1分単位のパケット数を時系列特徴量とした

対数差分系列データへ変換&標準化

目標:各時系列特徴間の直接相関関係のグラフ構造を求める 

→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
(変数間の直接相関を表す)を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso

手順 

1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた

3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)

作ったグラフにGraphical Lasso を適用して


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS