卒業研究(武藤) の履歴(No.10)

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
卒業研究(武藤) へ行く。
- 1 (2021-02-11 (木) 20:45:14)
- 2 (2021-06-25 (金) 22:42:38)
- 3 (2021-06-29 (火) 20:00:00)
- 4 (2021-09-14 (火) 03:29:12)
- 5 (2021-12-30 (木) 13:48:57)
- 6 (2022-01-04 (火) 15:32:21)
- 7 (2022-01-05 (水) 10:51:42)
- 8 (2022-01-17 (月) 15:14:49)
- 9 (2022-10-01 (土) 04:06:35)
- 10 (2023-02-01 (水) 16:37:17)
- 11 (2023-09-27 (水) 22:31:27)

武藤?

有機合成での化学反応に用いる最適な酵素の予測
テキストマイニングによる遺伝子間の関係性の可視化(没2)
- 案1：従来にほぼ近づけた方法
- 案2：↑の◎
遺伝子データベースそれぞれのリンク先
スパース(疎)構造学習(没1)
- 1.侵入検知システム(機械学習型IDS)
  - 目標：各時系列特徴間の直接相関関係のグラフ構造を求める
  - 手順

有機合成での化学反応に用いる最適な酵素の予測

1.背景

有機化合物(高分子など)の合成では触媒として酵素が用いられる機会が増えてきた
- 人工的な触媒に対して、酵素は自然にやさしく、反応がより効率的に進むのが強み
熟練の合成研究者ならどの酵素を使うべきかはだいたい分かる
- 最適候補を決め、実験(スクリーニング)によって1つの酵素に絞る
- 経験豊富でない場合、酵素DBや酵素研究者との実験などで探索→時間がかかる
- 最適酵素「候補」を予測し、探索時間を短縮できるような機械学習手法を提案(あくまで1つに絞らず「候補を出す」ところまでで、その後は酵素の専門領域)

本研究は前半と後半に分かれ、前半は教師なしのクラスタリング。後半は教師ありのクラス分類を行っている

2.酵素分野の基礎事項

酵素はEC番号で管理されている
- 4桁の番号で、1～3番はどの反応・化合物に作用するかで分類、4番目はただの名前
- 基本的にKEGGなどのDBに登録されており、自然界で化合物に作用して反応を起こす
- 1つのEC番号4桁に属する酵素は基本複数ある(BRENDA記載のものなど)

予測したいのは厳密には酵素ではなくEC番号になる(EC番号が「候補」となり、その後のスクリーニングでそのEC番号から1つを選んでもらう)

3. ケモインフォマティクス技術と情報技術

ケモインフォマティクス：
酵素の探索にしても、化学反応の設計にしてもコンピュータで化合物を扱えると何かと便利→コンピュータが認識できる形で化合物を表現する技法などの大全

MOL,SDFファイル
- 1つの化合物の分子の位置や構造情報を行列のようなもので表したテキストファイル
- MOLは1つの化合物でSDFは複数のMOLをつなげたもの(DBで化合物の構造情報を手に入れるときは基本このファイルを見る)
SMILES
- 化合物の構造式を文字列で表したもの
- @や[]を使うことで3次元構造を上手く表現する
- イメージ的にこれ単体で使うことはなく、データのコンパクト格納や次の変換に使う
ベクトル
- 化合物に対して、分子量や電荷の偏りなどの物性値・化学値を計算
- 計算したn種類の物性値をn次元ベクトルで表現することで、その化合物の特徴ベクトルを作ることができる(機械学習への応用範囲がかなり広い)
- 物性値計算ライブラリが豊富にある(本研究はRDKitを使用)
フィンガープリント
- 化合物が「-OH」,「-CH4」といった特定の部分構造を持っているかをフラグ判定し、多次元のビット列にしたもの
- 物性値が化合物全体の特性をみるとするなら、フィンガープリントは一部分のみを見ている感じ(化学反応が起こる部位のみに着目すればより高精度な特徴抽出になる)
Pythonライブラリ「RDKit」
- なんでもできてしまうケモインフォマティクスの便利屋
- SDFファイルを取得し、構造式を描画、SMILES変換、208種類の物性値計算だけでなく、フィンガープリントベクトルの類似度比較などもできる
- 日本語ドキュメントだけでなく、Webにも分かりやすい教科書サイトがある。

データ収集(.RはR言語で実装されたソースコード)

CompoundIDs.R

KEGG COMPOUNDに収録されている化合物リストを取得(CXXXXX番号)
CXXXXXをPubChemのSID(PubChem Substanceの情報)に変換
SIDをCID(PubChem Compound)に変換し，kegg_CID,pubchemSID&CIDの対応表を出力する
重複pubchemSIDリストを取得する(pubchemCIDが一意なのに対し，pubchemSIDにはダブりがあるためその確認)
(注)途中手動で行う部分が入るため，rの対話モードで1行ずつコピペ実行すること推奨
→「<-」が代入になるのでそれが基準(%>%は連続代入なので分割しないこと)

ケモインフォマティクス

anaconda rdkit専用チャネルの作成

バージョン取得

python -V

rdkit チャネル作成

conda create -n rdkit python=X.X.X -y

※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)

conda activate rdkit

rdkitライブラリの導入(pipでは不可)

conda install rdkit -c conda-forge

jupyterカーネル導入

pip install jupyter environment_kernels

Reference

第1章

1節
- ケモインフォマティクス市場、2021年から2026年の間にCAGR13％で成長見込み
  https://prtimes.jp/main/html/rd/p/000002048.000071640.html

第2章

1節
- Evolving to an Ideal Synthesis of Molnupiravir, an Investigational Treatment for COVID‐19 (後半頻出)
  Tamas Benkovics, John A. McIntosh, Steven M. Silverman, Jongrock Kong, Peter Maligres, Tetsuji Itoh, Hao Yang, Mark A. Huffman, Deeptak Verma, Weilan Pan, Hsing-I Ho, Jonathan Vroom, Anders Knight, Jessica Hurtak, William Morris, Neil A. Strotman, Grant Murphy, Kevin M. Maloney, and Patrick S. Fier1
- 北川勲，磯部稔, "天然物化学・生物有機化学I", 朝倉書店, 2008.
- 西村淳, 樋口弘行, 大和武彦, "有機合成化学入門 -基礎を理解して実践に備える", 丸善株式会社, 2010.
- "日本化学会・ケモインフォマティクス部会", {https://cicsj.csj.jp/}
  ケモインフォマティクスの分野
- 中野裕太, 瀧川一学, "化学反応ネットワークにおける最適反応経路候補の列挙", 情報処理学会研究報告, Vol.~122, No.~16, 2019.
- 佐藤寛子, "化学情報学 - 化学反応の系図と反応予測", 国立情報学研究所, 2003.
  ケモインフォマティクスの基礎
- 藤波美起登, 清野淳司, "量子化学計算情報を記述子とした機械学習に基づく反応予測手法の開発", {Journal of Computer Chemistry, Japan}, Vol.~15, No.~3, pp. 63-65, 2016.
1節 "特異なタンパク質進化Circular permutation による酵素の機能改変",
```
{https://www.amano-enzyme.co.jp/corporate/foundation/pdf/19/pg09.pdf},
```
タンパク質工学の話
3節
- https://www.genome.jp/kegg/kegg_ja.html
- https://pubchem.ncbi.nlm.nih.gov/

【手順】

31行目までを順次実行(kegg_CID,pubchemSIDの対応表csvを取得)
最後の対応表,重複pubchemSIDリストを作るため，PubChem Identifier Exchange Service
(https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchange.cgi)でSIDをCIDに変換する(以下のその手順)
- 対応表csvの"pubchem_SID"列の要素だけをを新しいcsvにコピペする
- 「Input ID List」でSIDsにして，作ったcsvをファイル選択
- 「OperatorType」Same CID，「Output IDs」CIDs，「Output Method」Two column，「Compression」No compressionにしてSubmit Jobを押下
- 変換後txtファイルのリンクに飛び，右クリックから「名前を付けて保存」
- 保存したtxt内の1行目にpubchem_SID(Tabキーのスペース)pubchem_CID の文字列を挿入しておく
ソースコード内↓の行の.txt部分を作成したSID・CIDリストのtxt名に変更
```
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t", col_types = "cc")
```
kegg_CID,pubchemSID&CIDの対応表と重複pubchemSIDを確認する

テキストマイニングによる遺伝子間の関係性の可視化(没2)

【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テキストマイニング)との違い↓

各サイトからスクレイピングした際，文章の結合ができない

→遺伝子配列同士を結合させると意味のないものになってしまう自前で一貫した長い配列と辞書データベースを準備
→スクレイピングがいらなくなる
◎長い遺伝子配列に関するキーワードでスクレイピングして，出てきた遺伝子でDBを作るという手もある

案1：従来にほぼ近づけた方法

(1)各リンク内の遺伝子配列に対して，辞書を参考にして遺伝子を抽出
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる
(3)重複遺伝子を除去し，隣接行列取得

案2：↑の◎

長い配列がある疾患のDNAとしたとき，その疾患に関係してくるとされる遺伝子や直接働きかける作用を持つ遺伝子などをキーワードにしてスクレイピングし，出てきたそれぞれの配列を辞書DBに蓄積する．

遺伝子データベースそれぞれのリンク先

スパース(疎)構造学習(没1)

1.侵入検知システム(機械学習型IDS)

データセット：DARPA1998(TCPdumpしたトラフィックデータ)
↓
１分単位のパケット数を時系列特徴量とした
↓
対数差分系列データへ変換＆標準化

目標：各時系列特徴間の直接相関関係のグラフ構造を求める

→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行列(A)
（変数間の直接相関を表す）を推定する問題=構造学習
ノイズを排除して疎なAを求める
→Graphical Lasso

手順

1.トラフィックデータをグラフ化
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジの太さと正負関係を表す)
→全特徴量間に相関が出る完全グラフができた

3.GLを適用すると疎なグラフ構造ができた
4.グラフ表示時のトラフィックデータをNFPで学習させる
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常状態の予測)
5.精度98%の予測ができた(トラフィックデータ以外の様々な時系列データに応用できそう)

NFPとは
- グラフ畳み込みNN（GCNN）を化学分野に応用したもの
- 化学の分子構造をグラフとみて学習させ水溶度・毒性などの予測をする

作ったグラフにGraphical Lasso を適用して

有機合成での化学反応に用いる最適な酵素の予測

1.背景

2.酵素分野の基礎事項

3. ケモインフォマティクス技術と情報技術

データ収集(.RはR言語で実装されたソースコード)

CompoundIDs.R

ケモインフォマティクス

anaconda rdkit専用チャネルの作成

Reference

第1章

第2章

テキストマイニングによる遺伝子間の関係性の可視化(没2)

案1：従来にほぼ近づけた方法

案2：↑の◎

遺伝子データベースそれぞれのリンク先

【KEGG API】学名(生物名)リスト

【KEGG API】ヒト遺伝子vsパスウェイ対応表(パスウェイ順)(hsaを取得した略語に変換)

【KEGG API】全パスウェイリスト

KEGG関連のテキストマイニング作業について

【NCBI】ヒト完全ゲノムデータベース(サーバ内ディレクトリ)

BLASTP(タンパク質 相同性検索)

スパース(疎)構造学習(没1)

1.侵入検知システム(機械学習型IDS)

目標：各時系列特徴間の直接相関関係のグラフ構造を求める

手順

BLASTP(タンパク質相同性検索)