武藤/修論研究(22.04-24.03)/最終テーマ
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[武藤/修論研究(22.04-24.03)]]
#contents
* 化学反応に最適なEC番号予測モデルの開発 [#w801fc19]
卒論後半手法 & 学会論文の拡張
** 研究背景 [#x9ca977e]
有機合成=化合物を合成して目的の有機化合物を生成する(反応...
-有機合成では効率性や環境面から化学反応の設計に生体触媒(...
--酵素は化学触媒よりも環境に優しく,特定の反応物に強く作...
-酵素は4桁のEC番号で分類されている
-EC番号を機械学習で予測することで,酵素分析(以下)を行う実...
--代謝経路の解析で得られた未知の酵素の性質の特定
--特定の化学反応を触媒する酵素の探索
** 目的 [#sbcb0996]
-反応物(基質)から生成物に変化する化学反応に用いるべき最適...
--最適な酵素の探索は合成実験などで行われるが,探索範囲を...
-代謝経路の探索よりも有機合成に焦点を当ててEC番号を予測する
* EC番号予測分野のエッセンス [#le48fae0]
** EC番号 [#rc3965bf]
-性質に応じて酵素を分類するラベル
-あるEC番号の酵素が持つたんぱく質配列や触媒する化学反応の...
--逆に未知のタンパク質配列 or 化学反応が与えられたときにE...
** 類似性の原理 [#a7dcb626]
原著は1990年の書籍 ((Mark A. Johnson, et al, "Concepts an...
類似性を用いた研究の多くがこの書籍を参考にしている →[[原...
-「構造的に類似する化合物は類似する性質を有する」という原...
--生物分野では.遺伝子解析で得られた性質が未知なタンパク...
--化学分野では,既存の化合物と構造が少し異なる新規化合物...
EC番号予測の場合
#ref(EC番号_類似性.jpg,,70%)
-既存の酵素(EC番号)を用いた化学反応を用い,この反応にはこ...
-どの酵素を使えばよいか分からない化学反応の特徴と,既存の...
** 機械学習に求められること [#od528ce8]
#ref(【CatFam】Genome-wide enzyme annotation with precisi...
類似性の上を行く自然の摂理を再現
-類似するタンパク質をBLASTなどのデータベースで探索するこ...
-機械学習は観測データで世の中の現象を限りなく近似・再現す...
* EC番号予測で用いられる情報技術 [#r5089a8c]
各種技術の説明や参考文献
** バイオインフォマティクス・ケモインフォマティクス [#u81...
情報技術を生物・化学分野に応用し,何かしらの分析を行う分野
** ケモインフォマティクスの参考サイト [#xa41464c]
-[[化学の新しいカタチ>https://future-chem.com/]]
--ケモインフォマティクスを教科書的に網羅している
-[[明治大学 金子研究室>https://datachemeng.com/]]
--化学データの分析関連に詳しい(卒論で相関係数のクラスタリ...
** RDKit [#qa87a450]
Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)
-[[科学の新しいカタチ RDKitでケモインフォマティクスに入門...
-[[日本語公式ドキュメント>https://rdkit.org/docs_jp/Getti...
** フィンガープリント(FP) [#db06e37a]
-化合物の構造をバイナリベクトルで表現したもの
-[[RDKitでFPを使った分子類似性の判定>https://future-chem....
#ref(【4FPs】薬剤活性予測のための化合物FPの比較解析.pdf,,...
-166種類の部分構造の有無を判定するMACCS Keysや分子の結合...
--辞書型のMACCS Keysに比べ,結合を表現するECFP等の方が情...
-その他のFP
8種FPのサーベイ論文[[Concepts and applications of chemica...
* EC番号予測の先行研究 [#ue776a8d]
** EC番号予測手法の背景 [#s79914f8]
*** 化合物の構造や物理・化学的特性値を用いた予測(2010年前...
-反応物(基質)と生成物の化学構造のユニークなパターンを学習...
#ref(【E-zyme】.pdf,,E-zyme)
-化合物に対して68種類の構造・物理・化学的指標を計算し,SO...
#ref(【MOLMAP】.pdf,,MOLMAP)
#ref(【MOLMAPxRF】.pdf,,MOLMAP x RandomForests)
-1~3桁目までの予測
-現在主流の手法に比べると用いられたデータが少なめ
-4桁目を予測するのが難しいといったデメリット
--EC番号分類体系において,4桁目は3桁目まで同様の機能を持...
*** FPを用いた手法 [#uae9d12a]
-【ECAssigner】分子断片の有無を判定するFPを用いて,基質か...
--KEGGのデータベースのみなのでデータ数が少ない
-【DRFP】基質→生成物の変化を高次元のECFPで表現し,多層パ...
-- データ数が非常に多い
--[[GitHubソースコード>https://github.com/daenuprobst/the...
-- FPを用いたEC番号予測では最新(2023.11)の手法だと思われる
*** タンパク質配列を用いた手法 [#k6b02c12]
EC番号予測で最も多い手法
-2018年以降から4桁全て予測できるような手法が開発されてお...
*** 配列と化学構造情報の組み合わせ [#td62910f]
配列に関する記述子と,化学構造に関する記述子を組み合わせ...
-2018年頃の手法から4桁まで予測できる配列ベースの方が優勢...
*** 手法の使い分け [#k52d1bff]
EC番号を単に予測するだけならタンパク質配列を用いた方が高...
-多くの研究は生物よりで配列の性質を特定するためにEC番号を...
--酵素の性質の特定が進めば,有機合成に活かせるのも事実
-一部では酵素の化学反応目線で行われている
化学反応目線なら物理・化学的特性値やFP,生物向けならタン...
** 卒論でやったこと [#l67c50d7]
-Self-Organizing Map(SOM)を用いたEC3の4桁目(EC 3.1.1)の予...
-Random Forests(RF)を用いたEC3の2,3桁目の予測モデル開発
*** 卒論のメリット [#l6b15961]
-天然には存在しない酵素反応に対してEC番号を予測したこと
--【MOLMAPxRF】や【ECAssigner】は自然界に存在する酵素反応...
*** 卒論の課題 [#efb89ee8]
-予測の信頼性向上のためのデータ拡充で,BRENDAの酵素反応を...
** 修論でやったこと [#ic4a41d5]
-Random Forests(RF)を用いた全EC番号(EC7を除く)の1~3桁目...
卒論後に発表された【DRFP】で大量のBRENDAデータだけでなく...
スクレイピング以上に十分なデータが集まった.(その代わり【...
*** 修論のメリット [#n348bdb3]
FP(部分構造の有無)とや物理・化学的特性値の併用
-FP=学習時間短,化学反応情報少 ⇔ 特性値=学習時間長,化学...
-有機合成視点では,物理化学特性値を優先
RDKit記述子(85部分構造,125特性値)を用いることで,学習時...
* 修論技術と数値実験 [#y6c38aa3]
[[技術資料>武藤さん修論]]を参照
* 修論の改善点と応用 [#ye58b6b2]
** 改善点 [#hee16312]
***(1)アンダーサンプリングとオーバーサンプリングの組み合...
-オーバーサンプリング単体では少数クラスのデータを多数クラ...
-多数クラスの数を減らした後に,少数クラスを多数クラスまで...
--実際,原著論文(SMOTE: Synthetic Minority Over-sampling ...
--オーバー→アンダーの流れだと,増やした仮想データを削除す...
-JupyterプログラムにはNearMiss(アンダー)+SMOTE+RFのパイプ...
-NearMissはSMOTEと同じく,K近傍法(K-Nearest Neighbor)を用...
-もしくは[[imblearn.over_sampling.SMOTEドキュメント>https...
*** (2)記述子選択とSMOTEのパラメータ調整 [#ldbc8b74]
記述子選択を打ち止めるタイミング(記述子数)とSMOTEの増加閾...
-本実験の「4回未更新の直前」は「1~5回」を試行し,記述子...
-同様に増加閾値は,SMOTE後にデータ数が記述子選択時間に影...
-記述子選択スコアの変動具合やクラス分布に応じて自動で最適...
*** (3)RDKit以外の記述子の利用 [#ma767eef]
以下参考
-[[化学構造の数値化>https://datachemeng.com/handle_molecu...
-[[計算例>https://cb.imsc.res.in/deduct/descriptors/eJaFh...
-RDKit + それ以外の記述子を用いて記述子選択を行う
--化学反応の特徴をより説明できる可能性
** FPの組み合わせ [#lf9d6bf5]
-FPは,8種類(2022年現在)あるとされている
-[[参考論文>https://doi.org/10.1016/j.drudis.2022.103356]]
#ref(8FPs_overview.docx,,翻訳)
-FPを組み合わせ,特徴選択で必要な箇所(要素)だけ用いるなど...
#ref(データ解析入門13.pdf,,参考)
--[[【化学】分子記述子についてまとめた件>https://qiita.co...
-化学反応目線ではFPが主流となってきているように思える
-FPは学習コストが少ないため,組み合わせても時間に影響され...
~
** EC番号予測以外の応用 [#maf61c71]
*** 定量的構造活性相関(QSAR) [#i50f4ccc]
化合物を何かしらの指標で数値化し,医薬品開発や毒性予測な...
([[定量的構造活性相関 -Hansch法の基礎と応用->http://www.c...
#ref(QSAR-QSPR.pdf,,QSARに関する論文)
#ref(QSAR-QSPR.docx,,【翻訳】QSARに関する論文)
QSARの分野でテーマを見つけ,修論の手法を応用するという選...
~
*** ※EC番号4桁目までの予測について [#gf8960b8]
3桁目よりもクラス数が大幅に増えるため,現状のシステムでは...
-配列ベース(DeepEC,EnzymeNet)のようにベクトルを特徴マッ...
-数年以内に【DRFP】などFPの新手法で4桁目まで予測される可...
--その場合,新手法と分類精度で勝負する必要が出てくるため...
-技術資料の内容を用いてQSARなどに活かすことを推奨
終了行:
[[武藤/修論研究(22.04-24.03)]]
#contents
* 化学反応に最適なEC番号予測モデルの開発 [#w801fc19]
卒論後半手法 & 学会論文の拡張
** 研究背景 [#x9ca977e]
有機合成=化合物を合成して目的の有機化合物を生成する(反応...
-有機合成では効率性や環境面から化学反応の設計に生体触媒(...
--酵素は化学触媒よりも環境に優しく,特定の反応物に強く作...
-酵素は4桁のEC番号で分類されている
-EC番号を機械学習で予測することで,酵素分析(以下)を行う実...
--代謝経路の解析で得られた未知の酵素の性質の特定
--特定の化学反応を触媒する酵素の探索
** 目的 [#sbcb0996]
-反応物(基質)から生成物に変化する化学反応に用いるべき最適...
--最適な酵素の探索は合成実験などで行われるが,探索範囲を...
-代謝経路の探索よりも有機合成に焦点を当ててEC番号を予測する
* EC番号予測分野のエッセンス [#le48fae0]
** EC番号 [#rc3965bf]
-性質に応じて酵素を分類するラベル
-あるEC番号の酵素が持つたんぱく質配列や触媒する化学反応の...
--逆に未知のタンパク質配列 or 化学反応が与えられたときにE...
** 類似性の原理 [#a7dcb626]
原著は1990年の書籍 ((Mark A. Johnson, et al, "Concepts an...
類似性を用いた研究の多くがこの書籍を参考にしている →[[原...
-「構造的に類似する化合物は類似する性質を有する」という原...
--生物分野では.遺伝子解析で得られた性質が未知なタンパク...
--化学分野では,既存の化合物と構造が少し異なる新規化合物...
EC番号予測の場合
#ref(EC番号_類似性.jpg,,70%)
-既存の酵素(EC番号)を用いた化学反応を用い,この反応にはこ...
-どの酵素を使えばよいか分からない化学反応の特徴と,既存の...
** 機械学習に求められること [#od528ce8]
#ref(【CatFam】Genome-wide enzyme annotation with precisi...
類似性の上を行く自然の摂理を再現
-類似するタンパク質をBLASTなどのデータベースで探索するこ...
-機械学習は観測データで世の中の現象を限りなく近似・再現す...
* EC番号予測で用いられる情報技術 [#r5089a8c]
各種技術の説明や参考文献
** バイオインフォマティクス・ケモインフォマティクス [#u81...
情報技術を生物・化学分野に応用し,何かしらの分析を行う分野
** ケモインフォマティクスの参考サイト [#xa41464c]
-[[化学の新しいカタチ>https://future-chem.com/]]
--ケモインフォマティクスを教科書的に網羅している
-[[明治大学 金子研究室>https://datachemeng.com/]]
--化学データの分析関連に詳しい(卒論で相関係数のクラスタリ...
** RDKit [#qa87a450]
Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)
-[[科学の新しいカタチ RDKitでケモインフォマティクスに入門...
-[[日本語公式ドキュメント>https://rdkit.org/docs_jp/Getti...
** フィンガープリント(FP) [#db06e37a]
-化合物の構造をバイナリベクトルで表現したもの
-[[RDKitでFPを使った分子類似性の判定>https://future-chem....
#ref(【4FPs】薬剤活性予測のための化合物FPの比較解析.pdf,,...
-166種類の部分構造の有無を判定するMACCS Keysや分子の結合...
--辞書型のMACCS Keysに比べ,結合を表現するECFP等の方が情...
-その他のFP
8種FPのサーベイ論文[[Concepts and applications of chemica...
* EC番号予測の先行研究 [#ue776a8d]
** EC番号予測手法の背景 [#s79914f8]
*** 化合物の構造や物理・化学的特性値を用いた予測(2010年前...
-反応物(基質)と生成物の化学構造のユニークなパターンを学習...
#ref(【E-zyme】.pdf,,E-zyme)
-化合物に対して68種類の構造・物理・化学的指標を計算し,SO...
#ref(【MOLMAP】.pdf,,MOLMAP)
#ref(【MOLMAPxRF】.pdf,,MOLMAP x RandomForests)
-1~3桁目までの予測
-現在主流の手法に比べると用いられたデータが少なめ
-4桁目を予測するのが難しいといったデメリット
--EC番号分類体系において,4桁目は3桁目まで同様の機能を持...
*** FPを用いた手法 [#uae9d12a]
-【ECAssigner】分子断片の有無を判定するFPを用いて,基質か...
--KEGGのデータベースのみなのでデータ数が少ない
-【DRFP】基質→生成物の変化を高次元のECFPで表現し,多層パ...
-- データ数が非常に多い
--[[GitHubソースコード>https://github.com/daenuprobst/the...
-- FPを用いたEC番号予測では最新(2023.11)の手法だと思われる
*** タンパク質配列を用いた手法 [#k6b02c12]
EC番号予測で最も多い手法
-2018年以降から4桁全て予測できるような手法が開発されてお...
*** 配列と化学構造情報の組み合わせ [#td62910f]
配列に関する記述子と,化学構造に関する記述子を組み合わせ...
-2018年頃の手法から4桁まで予測できる配列ベースの方が優勢...
*** 手法の使い分け [#k52d1bff]
EC番号を単に予測するだけならタンパク質配列を用いた方が高...
-多くの研究は生物よりで配列の性質を特定するためにEC番号を...
--酵素の性質の特定が進めば,有機合成に活かせるのも事実
-一部では酵素の化学反応目線で行われている
化学反応目線なら物理・化学的特性値やFP,生物向けならタン...
** 卒論でやったこと [#l67c50d7]
-Self-Organizing Map(SOM)を用いたEC3の4桁目(EC 3.1.1)の予...
-Random Forests(RF)を用いたEC3の2,3桁目の予測モデル開発
*** 卒論のメリット [#l6b15961]
-天然には存在しない酵素反応に対してEC番号を予測したこと
--【MOLMAPxRF】や【ECAssigner】は自然界に存在する酵素反応...
*** 卒論の課題 [#efb89ee8]
-予測の信頼性向上のためのデータ拡充で,BRENDAの酵素反応を...
** 修論でやったこと [#ic4a41d5]
-Random Forests(RF)を用いた全EC番号(EC7を除く)の1~3桁目...
卒論後に発表された【DRFP】で大量のBRENDAデータだけでなく...
スクレイピング以上に十分なデータが集まった.(その代わり【...
*** 修論のメリット [#n348bdb3]
FP(部分構造の有無)とや物理・化学的特性値の併用
-FP=学習時間短,化学反応情報少 ⇔ 特性値=学習時間長,化学...
-有機合成視点では,物理化学特性値を優先
RDKit記述子(85部分構造,125特性値)を用いることで,学習時...
* 修論技術と数値実験 [#y6c38aa3]
[[技術資料>武藤さん修論]]を参照
* 修論の改善点と応用 [#ye58b6b2]
** 改善点 [#hee16312]
***(1)アンダーサンプリングとオーバーサンプリングの組み合...
-オーバーサンプリング単体では少数クラスのデータを多数クラ...
-多数クラスの数を減らした後に,少数クラスを多数クラスまで...
--実際,原著論文(SMOTE: Synthetic Minority Over-sampling ...
--オーバー→アンダーの流れだと,増やした仮想データを削除す...
-JupyterプログラムにはNearMiss(アンダー)+SMOTE+RFのパイプ...
-NearMissはSMOTEと同じく,K近傍法(K-Nearest Neighbor)を用...
-もしくは[[imblearn.over_sampling.SMOTEドキュメント>https...
*** (2)記述子選択とSMOTEのパラメータ調整 [#ldbc8b74]
記述子選択を打ち止めるタイミング(記述子数)とSMOTEの増加閾...
-本実験の「4回未更新の直前」は「1~5回」を試行し,記述子...
-同様に増加閾値は,SMOTE後にデータ数が記述子選択時間に影...
-記述子選択スコアの変動具合やクラス分布に応じて自動で最適...
*** (3)RDKit以外の記述子の利用 [#ma767eef]
以下参考
-[[化学構造の数値化>https://datachemeng.com/handle_molecu...
-[[計算例>https://cb.imsc.res.in/deduct/descriptors/eJaFh...
-RDKit + それ以外の記述子を用いて記述子選択を行う
--化学反応の特徴をより説明できる可能性
** FPの組み合わせ [#lf9d6bf5]
-FPは,8種類(2022年現在)あるとされている
-[[参考論文>https://doi.org/10.1016/j.drudis.2022.103356]]
#ref(8FPs_overview.docx,,翻訳)
-FPを組み合わせ,特徴選択で必要な箇所(要素)だけ用いるなど...
#ref(データ解析入門13.pdf,,参考)
--[[【化学】分子記述子についてまとめた件>https://qiita.co...
-化学反応目線ではFPが主流となってきているように思える
-FPは学習コストが少ないため,組み合わせても時間に影響され...
~
** EC番号予測以外の応用 [#maf61c71]
*** 定量的構造活性相関(QSAR) [#i50f4ccc]
化合物を何かしらの指標で数値化し,医薬品開発や毒性予測な...
([[定量的構造活性相関 -Hansch法の基礎と応用->http://www.c...
#ref(QSAR-QSPR.pdf,,QSARに関する論文)
#ref(QSAR-QSPR.docx,,【翻訳】QSARに関する論文)
QSARの分野でテーマを見つけ,修論の手法を応用するという選...
~
*** ※EC番号4桁目までの予測について [#gf8960b8]
3桁目よりもクラス数が大幅に増えるため,現状のシステムでは...
-配列ベース(DeepEC,EnzymeNet)のようにベクトルを特徴マッ...
-数年以内に【DRFP】などFPの新手法で4桁目まで予測される可...
--その場合,新手法と分類精度で勝負する必要が出てくるため...
-技術資料の内容を用いてQSARなどに活かすことを推奨
ページ名: