武藤/修論研究(22.04-24.03)

化学反応に最適なEC番号予測モデルの開発 

卒論後半手法 & 学会論文の拡張

研究背景 

有機合成=化合物を合成して目的の有機化合物を生成する(反応の設計)

目的 

EC番号予測分野のエッセンス 

EC番号 

類似性の原理 

原著は1990年の書籍 *1

類似性を用いた研究の多くがこの書籍を参考にしている →原著(有料で閲覧難)

EC番号予測の場合

EC番号_類似性.jpg

機械学習に求められること 

類似性の上を行く自然の摂理を再現

EC番号予測で用いられる情報技術 

各種技術の説明や参考文献

バイオインフォマティクス・ケモインフォマティクス 

情報技術を生物・化学分野に応用し,何かしらの分析を行う分野

ケモインフォマティクスの参考サイト 

RDKit 

Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)

フィンガープリント(FP) 

EC番号予測の先行研究 

EC番号予測手法の背景 

化合物の構造や物理・化学的特性値を用いた予測(2010年前後) 

FPを用いた手法 

タンパク質配列を用いた手法 

EC番号予測で最も多い手法

配列と化学構造情報の組み合わせ 

配列に関する記述子と,化学構造に関する記述子を組み合わせた手法で予測精度が向上している.

手法の使い分け 

EC番号を単に予測するだけならタンパク質配列を用いた方が高精度(高度な専門知識)

化学反応目線なら物理・化学的特性値やFP,生物向けならタンパク質配列を推奨

卒論でやったこと 

卒論のメリット 

卒論の課題 

修論でやったこと 

卒論後に発表された【DRFP】で大量のBRENDAデータだけでなく,Rhea,BRENDA,PathBank,MetaNetXの(KEGGにはない)酵素反応を収録したデータセットが用いられ, スクレイピング以上に十分なデータが集まった.(その代わり【DRFP】と結果を比較する必要が生じた)

修論のメリット 

FP(部分構造の有無)とや物理・化学的特性値の併用

RDKit記述子(85部分構造,125特性値)を用いることで,学習時間を抑えつつ,反応情報量を増やした点

修論技術と数値実験 

技術資料?を参照

修論の改善点と応用 

改善点 

(1)アンダーサンプリングとオーバーサンプリングの組み合わせ 

(2)パラメータ調整 


*1 Mark A. Johnson, et al, "Concepts and Applications of Molecular Similarity", John Wiley & Sons, New York, pp. 393, 1990

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS