武藤?

有機合成での化学反応に用いる最適な酵素の予測 

研究を始めた経緯

1.背景 

 

本研究は前半と後半に分かれ、前半は教師なしのクラスタリング。後半は教師ありのクラス分類を行っている

2.酵素分野の基礎事項 

 

予測したいのは厳密には酵素ではなくEC番号になる(EC番号が「候補」となり、その後のスクリーニングでそのEC番号から1つを選んでもらう)

3. ケモインフォマティクス技術と情報技術 

ケモインフォマティクス:
酵素の探索にしても、化学反応の設計にしてもコンピュータで化合物を扱えると何かと便利→コンピュータが認識できる形で化合物を表現する技法などの大全

5.1. 数値実験(概要) 

5.2. 数値実験(結果)* 

データ収集(.RはR言語で実装されたソースコード) 

geneGraphフォルダ

「CompoundIDs.R」を用いたデータ取得 

https://rstudio-pubs-static.s3.amazonaws.com/472676_97a2c135b5704dc1b52f7759b73466e8.html#kegg-reaction-id」の「6 KEGG COMPOUND」に書かれているソースコードを利用している

スクレイピング 

PunChemのRestAPIを用いてSDFファイルを取得する

ケモインフォマティクス 

anaconda rdkit専用チャネルの作成 

バージョン取得

python -V

rdkit チャネル作成

conda create -n rdkit python=X.X.X -y

※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)

conda activate rdkit

rdkitライブラリの導入(pipでは不可)

conda install rdkit -c conda-forge

jupyterカーネル導入

pip install jupyter environment_kernels

Reference 

第1章 

第2章 

【手順】






テキストマイニングによる遺伝子間の関係性の可視化(没2) 

【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓

各サイトからスクレイピングした際,文章の結合ができない

→遺伝子配列同士を結合させると意味のないものになってしまう 自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして,出てきた遺伝子でDBを作るという手もある

案1:従来にほぼ近づけた方法 

(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し,隣接行列取得

案2:↑の◎ 

長い配列がある疾患のDNAとしたとき,その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし,出てきたそれぞれの配列を辞書DBに蓄積する.

遺伝子データベースそれぞれのリンク先 

【KEGG API】学名(生物名)リスト 

http://rest.kegg.jp/list/organism

【KEGG API】ヒト遺伝子vsパスウェイ対応表(パスウェイ順)(hsaを取得した略語に変換) 

http://rest.kegg.jp/link/pathway/hsa

【KEGG API】全パスウェイリスト 

http://rest.kegg.jp/list/pathway
(通常サイト)>>>https://www.genome.jp/kegg/pathway.html

KEGG関連のテキストマイニング作業について 

https://sites.google.com/site/scriptofbioinformatics/cytoscape-guan-xi/kgml-jie-weideno-zuo-ye-perl

【NCBI】ヒト完全ゲノムデータベース(サーバ内ディレクトリ) 

https://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/latest_assembly_versions/GCF_000001405.39_GRCh38.p13/

BLASTP(タンパク質 相同性検索) 

https://blast.ncbi.nlm.nih.gov/Blast.cgi

スパース(疎)構造学習(没1) 

1.侵入検知システム(機械学習型IDS) 

データセット:DARPA1998(TCPdumpしたトラフィックデータ)

1分単位のパケット数を時系列特徴量とした

対数差分系列データへ変換&標準化

目標:各時系列特徴間の直接相関関係のグラフ構造を求める 

→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
(変数間の直接相関を表す)を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso

手順 

1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた

3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)

作ったグラフにGraphical Lasso を適用して


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS