武藤/修論研究(22.04-24.03)/最終テーマの編集

[[武藤/修論研究(22.04-24.03)]]

#contents

* 化学反応に最適なEC番号予測モデルの開発 [#w801fc19]
卒論後半手法 & 学会論文の拡張

** 研究背景 [#x9ca977e]
有機合成=化合物を合成して目的の有機化合物を生成する(反応の設計)
-有機合成では効率性や環境面から化学反応の設計に生体触媒(酵素)が利用される機会が増加
--酵素は化学触媒よりも環境に優しく，特定の反応物に強く作用して化学反応を早く進める
-酵素は4桁のEC番号で分類されている
-EC番号を機械学習で予測することで，酵素分析(以下)を行う実験コストや時間の削減になる
--代謝経路の解析で得られた未知の酵素の性質の特定
--特定の化学反応を触媒する酵素の探索

** 目的 [#sbcb0996]
-反応物(基質)から生成物に変化する化学反応に用いるべき最適な酵素候補をEC番号として提示する機械学習モデル(EC番号予測システム)の開発
--最適な酵素の探索は合成実験などで行われるが，探索範囲を予測されたEC番号内の酵素製品に絞り込むことができ，実験時間・コストの短縮になる． 
-代謝経路の探索よりも有機合成に焦点を当ててEC番号を予測する

* EC番号予測分野のエッセンス [#le48fae0]
** EC番号 [#rc3965bf]
-性質に応じて酵素を分類するラベル
-あるEC番号の酵素が持つたんぱく質配列や触媒する化学反応の情報が分かる(KEGG, BRENDAなど)
--逆に未知のタンパク質配列 or 化学反応が与えられたときにEC番号を予測するという流れが機械学習

** 類似性の原理 [#a7dcb626]
原著は1990年の書籍 ((Mark A. Johnson, et al, "Concepts and Applications of Molecular Similarity", John Wiley & Sons, New York, pp. 393, 1990))

類似性を用いた研究の多くがこの書籍を参考にしている →[[原著(有料で閲覧難)>https://doi.org/10.1002/jcc.540130415]]

-「構造的に類似する化合物は類似する性質を有する」という原理で，生物・化学分野ではこの考えが良く用いられる．
--生物分野では．遺伝子解析で得られた性質が未知なタンパク質配列に対して，データベース上で類似する配列を検索し，「未知のタンパク質が類似したタンパク質のような機能をもっているのではないか」とおおまかな当たりをつけるために用いることがある
--化学分野では，既存の化合物と構造が少し異なる新規化合物を作る際に，構造が類似していることから，「既存の化合物生成に用いていた材料を同じように使う + 配合や試薬，実験環境を少し変えれば上手く作れるのではないか？」と言うアプローチができる

EC番号予測の場合
#ref(EC番号_類似性.jpg,,70%)
-既存の酵素(EC番号)を用いた化学反応を用い，この反応にはこの酵素という分類学習を実施
-どの酵素を使えばよいか分からない化学反応の特徴と，既存の化学反応の特徴が類似していれば，既存の化学反応で用いられたEC番号を使うことで，所望の生成物をより効率的に得られる可能性がある

** 機械学習に求められること [#od528ce8]
#ref(【CatFam】Genome-wide enzyme annotation with precision control.pdf,,参考文献)

類似性の上を行く自然の摂理を再現
-類似するタンパク質をBLASTなどのデータベースで探索することが主流になってきているが，類似性スコアが低い配列しかヒットしなかったときの信頼性が問題になる
-機械学習は観測データで世の中の現象を限りなく近似・再現するタスクのため，化学反応(タンパク質配列)が与えられたときに「このEC番号(酵素)を使う」「この配列はこのEC番号(こういう性質がある)」ということを断言することが目的になる

* EC番号予測で用いられる情報技術 [#r5089a8c]
各種技術の説明や参考文献
** バイオインフォマティクス・ケモインフォマティクス [#u81e0bbf]
情報技術を生物・化学分野に応用し，何かしらの分析を行う分野

** ケモインフォマティクスの参考サイト [#xa41464c]
-[[化学の新しいカタチ>https://future-chem.com/]]
--ケモインフォマティクスを教科書的に網羅している
-[[明治大学 金子研究室>https://datachemeng.com/]]
--化学データの分析関連に詳しい(卒論で相関係数のクラスタリングを参考)

** RDKit [#qa87a450]
Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)
-[[科学の新しいカタチ RDKitでケモインフォマティクスに入門>https://future-chem.com/rdkit-intro/]]
-[[日本語公式ドキュメント>https://rdkit.org/docs_jp/Getting_Started_with_RDKit_in_Python_jp.html]]

** フィンガープリント(FP) [#db06e37a]
-化合物の構造をバイナリベクトルで表現したもの
-[[RDKitでFPを使った分子類似性の判定>https://future-chem.com/rdkit-fingerprint/]]
#ref(【4FPs】薬剤活性予測のための化合物FPの比較解析.pdf,,4種フィンガープリントの説明)

-166種類の部分構造の有無を判定するMACCS Keysや分子の結合関係に着目したECFP, FCFP, NFPなどがある
--辞書型のMACCS Keysに比べ，結合を表現するECFP等の方が情報が多く，良く用いられる

-その他のFP
8種FPのサーベイ論文[[Concepts and applications of chemical fingerprint for hit and lead screening>https://doi.org/10.1016/j.drudis.2022.103356]]

* EC番号予測の先行研究 [#ue776a8d]
** EC番号予測手法の背景 [#s79914f8]
*** 化合物の構造や物理・化学的特性値を用いた予測(2010年前後) [#p73ab78a]
-反応物(基質)と生成物の化学構造のユニークなパターンを学習し，入力反応式のEC番号を予測する方法 
#ref(【E-zyme】.pdf,,E-zyme)
-化合物に対して68種類の構造・物理・化学的指標を計算し，SOMで2次元平面上にマッピング．基質から生成物の2次元マップの差分を学習し，予測
#ref(【MOLMAP】.pdf,,MOLMAP)
#ref(【MOLMAPxRF】.pdf,,MOLMAP x RandomForests)
-1～3桁目までの予測
-現在主流の手法に比べると用いられたデータが少なめ
-4桁目を予測するのが難しいといったデメリット
--EC番号分類体系において，4桁目は3桁目まで同様の機能を持った酵素の集まりで，性質が非常に似通っているため，化学的な手法では区別が難しい

*** FPを用いた手法 [#uae9d12a]
-【ECAssigner】分子断片の有無を判定するFPを用いて，基質から生成物の化学変化を計算し，ユークリッド距離の類似度に基づいて化学反応のEC番号3桁目までを予測する(2012)
--KEGGのデータベースのみなのでデータ数が少ない
-【DRFP】基質→生成物の変化を高次元のECFPで表現し，多層パーセプトロンで1～3桁目まで予測
-- データ数が非常に多い
--[[GitHubソースコード>https://github.com/daenuprobst/theia]](dataフォルダのデータセットを本実験で利用)
-- FPを用いたEC番号予測では最新(2023.11)の手法だと思われる

*** タンパク質配列を用いた手法 [#k6b02c12]
EC番号予測で最も多い手法
-2018年以降から4桁全て予測できるような手法が開発されており(ECPred，DeepEC，CLEAN)，EnzymeNetが最も高精度だと思われる(2023.11現在)

*** 配列と化学構造情報の組み合わせ [#td62910f]
配列に関する記述子と，化学構造に関する記述子を組み合わせた[[手法>https://dx.doi.org/10.1021/acs.jcim.9b00877?ref=pdf]]で予測精度が向上している．
-2018年頃の手法から4桁まで予測できる配列ベースの方が優勢のように感じるが，物理・化学的な手法でも，予測精度を向上される手法を新たに開発することができれば，有意性のあるものになる可能性がこの研究で示されたと考える．

*** 手法の使い分け [#k52d1bff]
EC番号を単に予測するだけならタンパク質配列を用いた方が高精度(高度な専門知識)
-多くの研究は生物よりで配列の性質を特定するためにEC番号を予測する
--酵素の性質の特定が進めば，有機合成に活かせるのも事実
-一部では酵素の化学反応目線で行われている

化学反応目線なら物理・化学的特性値やFP，生物向けならタンパク質配列を推奨

** 卒論でやったこと [#l67c50d7]
-Self-Organizing Map(SOM)を用いたEC3の4桁目(EC 3.1.1)の予測モデル開発
-Random Forests(RF)を用いたEC3の2,3桁目の予測モデル開発

*** 卒論のメリット [#l6b15961]
-天然には存在しない酵素反応に対してEC番号を予測したこと
--【MOLMAPxRF】や【ECAssigner】は自然界に存在する酵素反応を中心に扱うKEGGのデータを用いてモデル作成・予測していたが，卒論は非天然の酵素反応(合成実験など)を多く扱うBRENDAのデータの予測を行っていた点(より現実の有機合成に合わせた予測)

*** 卒論の課題 [#efb89ee8]
-予測の信頼性向上のためのデータ拡充で，BRENDAの酵素反応を自動収集スクレイピングする機能を開発する必要があった([[BRENDA API>https://www.brenda-enzymes.org/soap.php]])

** 修論でやったこと [#ic4a41d5]
-Random Forests(RF)を用いた全EC番号(EC7を除く)の1～3桁目の予測モデル開発

卒論後に発表された【DRFP】で大量のBRENDAデータだけでなく，Rhea，BRENDA，PathBank，MetaNetXの(KEGGにはない)酵素反応を収録したデータセットが用いられ，
スクレイピング以上に十分なデータが集まった．(その代わり【DRFP】と結果を比較する必要が生じた)

*** 修論のメリット [#n348bdb3]
FP(部分構造の有無)とや物理・化学的特性値の併用
-FP=学習時間短，化学反応情報少 ⇔ 特性値=学習時間長，化学反応情報多 の[[トレードオフ>https://boritaso-blog.com/fingerprint_python/]]
-有機合成視点では，物理化学特性値を優先

RDKit記述子(85部分構造，125特性値)を用いることで，学習時間を抑えつつ，反応情報量を増やした点

* 修論技術と数値実験 [#y6c38aa3]
[[技術資料>武藤さん修論]]を参照

* 修論の改善点と応用 [#ye58b6b2]
** 改善点 [#hee16312]
***(1)アンダーサンプリングとオーバーサンプリングの組み合わせ [#ta91af96]
-オーバーサンプリング単体では少数クラスのデータを多数クラスの数まで増やせない or 増やしたとしても，学習時間が膨大になるという問題がある．
-多数クラスの数を減らした後に，少数クラスを多数クラスまで増やせれば，不均衡なし&学習時間減で精度を向上できると思われる．
--実際，原著論文(SMOTE: Synthetic Minority Over-sampling Technique)でもアンダーサンプリングと組み合わせることで良い結果が示されている．
--オーバー→アンダーの流れだと，増やした仮想データを削除する(実データでない)可能性
-JupyterプログラムにはNearMiss(アンダー)+SMOTE+RFのパイプラインが搭載してあるが，「ValueError: With under-sampling methods, the number of samples in a class should be less or equal to the original number of samples.」のエラーを修正する必要がある
-NearMissはSMOTEと同じく，K近傍法(K-Nearest Neighbor)を用いているため親和性がある
-もしくは[[imblearn.over_sampling.SMOTEドキュメント>https://imbalanced-learn.org/stable/references/generated/imblearn.over_sampling.SMOTE.html]]で最適な組み合わせを探す

*** (2)記述子選択とSMOTEのパラメータ調整 [#ldbc8b74]
記述子選択を打ち止めるタイミング(記述子数)とSMOTEの増加閾値を自動的に設定する仕組み
-本実験の「4回未更新の直前」は「1～5回」を試行し，記述子が少なくも多くもないのが4回だっため
-同様に増加閾値は，SMOTE後にデータ数が記述子選択時間に影響しないように手動で調整している
-記述子選択スコアの変動具合やクラス分布に応じて自動で最適にできれば，他データセットを用いる際にも応用できる．

*** (3)RDKit以外の記述子の利用 [#ma767eef]
以下参考
-[[化学構造の数値化>https://datachemeng.com/handle_molecules/]]
-[[計算例>https://cb.imsc.res.in/deduct/descriptors/eJaFhpBqcHBoYWmA]]

-RDKit + それ以外の記述子を用いて記述子選択を行う
--化学反応の特徴をより説明できる可能性

** FPの組み合わせ [#lf9d6bf5]
-FPは，8種類(2022年現在)あるとされている
-[[参考論文>https://doi.org/10.1016/j.drudis.2022.103356]]
#ref(8FPs_overview.docx,,翻訳)
-FPを組み合わせ，特徴選択で必要な箇所(要素)だけ用いるなどの方法も考えられている
#ref(データ解析入門13.pdf,,参考)
--[[【化学】分子記述子についてまとめた件>https://qiita.com/r-shiomoto/items/29ec4fea0039d6ae4a17]]

-化学反応目線ではFPが主流となってきているように思える
-FPは学習コストが少ないため，組み合わせても時間に影響されないのかもしれない

~
** EC番号予測以外の応用 [#maf61c71]
*** 定量的構造活性相関(QSAR) [#i50f4ccc]
化合物を何かしらの指標で数値化し，医薬品開発や毒性予測などを行う分野(という認識)
([[定量的構造活性相関 -Hansch法の基礎と応用->http://www.chijinshokan.co.jp/Books/ISBN978-4-8052-0866-3.htm]])
#ref(QSAR-QSPR.pdf,,QSARに関する論文)
#ref(QSAR-QSPR.docx,,【翻訳】QSARに関する論文)

QSARの分野でテーマを見つけ，修論の手法を応用するという選択肢も考えられる.

~
*** ※EC番号4桁目までの予測について [#gf8960b8]
3桁目よりもクラス数が大幅に増えるため，現状のシステムでは不可能
-配列ベース(DeepEC，EnzymeNet)のようにベクトルを特徴マップに写像し，画像処理(CNN的な方法)で分類できれば高速処理になる可能性がある

-数年以内に【DRFP】などFPの新手法で4桁目まで予測される可能性がある
--その場合，新手法と分類精度で勝負する必要が出てくるため，研究の有意性を保つのが難しい
-技術資料の内容を用いてQSARなどに活かすことを推奨

タイムスタンプを変更しない