武藤/修論研究(22.04-24.03)
化学反応に最適なEC番号予測モデルの開発
卒論後半手法 & 学会論文の拡張
研究背景
有機合成=化合物を合成して目的の有機化合物を生成する(反応の設計)
- 有機合成では効率性や環境面から化学反応の設計に生体触媒(酵素)が利用される機会が増加
- 酵素は化学触媒よりも環境に優しく,特定の反応物に強く作用して化学反応を早く進める
- 酵素は4桁のEC番号で分類されている
- EC番号を機械学習で予測することで,酵素分析(以下)を行う実験コストや時間の削減になる
- 代謝経路の解析で得られた未知の酵素の性質の特定
- 特定の化学反応を触媒する酵素の探索
目的
- 反応物(基質)から生成物に変化する化学反応に用いるべき最適な酵素候補をEC番号として提示する機械学習モデル(EC番号予測システム)の開発
- 最適な酵素の探索は合成実験などで行われるが,探索範囲を予測されたEC番号内の酵素製品に絞り込むことができ,実験時間・コストの短縮になる.
- 代謝経路の探索よりも有機合成に焦点を当ててEC番号を予測する
EC番号予測分野のエッセンス
EC番号
- 性質に応じて酵素を分類するラベル
- あるEC番号の酵素が持つたんぱく質配列や触媒する化学反応の情報が分かる(KEGG, BRENDAなど)
- 逆に未知のタンパク質配列 or 化学反応が与えられたときにEC番号を予測するという流れが機械学習
類似性の原理
原著は1990年の書籍 *1
類似性を用いた研究の多くがこの書籍を参考にしている →原著(有料で閲覧難)
- 「構造的に類似する化合物は類似する性質を有する」という原理で,生物・化学分野ではこの考えが良く用いられる.
- 生物分野では.遺伝子解析で得られた性質が未知なタンパク質配列に対して,データベース上で類似する配列を検索し,「未知のタンパク質が類似したタンパク質のような機能をもっているのではないか」とおおまかな当たりをつけるために用いることがある
- 化学分野では,既存の化合物と構造が少し異なる新規化合物を作る際に,構造が類似していることから,「既存の化合物生成に用いていた材料を同じように使う + 配合や試薬,実験環境を少し変えれば上手く作れるのではないか?」と言うアプローチができる
EC番号予測の場合
- 既存の酵素(EC番号)を用いた化学反応を用い,この反応にはこの酵素という分類学習を実施
- どの酵素を使えばよいか分からない化学反応の特徴と,既存の化学反応の特徴が類似していれば,既存の化学反応で用いられたEC番号を使うことで,所望の生成物をより効率的に得られる可能性がある
機械学習に求められること
類似性の上を行く自然の摂理を再現
- 類似するタンパク質をBLASTなどのデータベースで探索することが主流になってきているが,類似性スコアが低い配列しかヒットしなかったときの信頼性が問題になる
- 機械学習は観測データで世の中の現象を限りなく近似・再現するタスクのため,化学反応(タンパク質配列)が与えられたときに「このEC番号(酵素)を使う」「この配列はこのEC番号(こういう性質がある)」ということを断言することが目的になる
EC番号予測で用いられる情報技術
各種技術の説明や参考文献
バイオインフォマティクス・ケモインフォマティクス
情報技術を生物・化学分野に応用し,何かしらの分析を行う分野
ケモインフォマティクスの参考サイト
RDKit
Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)
フィンガープリント(FP)
- 166種類の部分構造の有無を判定するMACCS Keysや分子の結合関係に着目したECFP, FCFP, NFPなどがある
- 辞書型のMACCS Keysに比べ,結合を表現するECFP等の方が情報が多く,良く用いられる
EC番号予測の先行研究
EC番号予測手法の背景
化合物の構造や物理・化学的特性値を用いた予測(2010年前後)
- 反応物(基質)と生成物の化学構造のユニークなパターンを学習し,入力反応式のEC番号を予測する方法
- 化合物に対して68種類の構造・物理・化学的指標を計算し,SOMで2次元平面上にマッピング.基質から生成物の2次元マップの差分を学習し,予測
- 1~3桁目までの予測
- 現在主流の手法に比べると用いられたデータが少なめ
- 4桁目を予測するのが難しいといったデメリット
- EC番号分類体系において,4桁目は3桁目まで同様の機能を持った酵素の集まりで,性質が非常に似通っているため,化学的な手法では区別が難しい
FPを用いた手法
- 【ECAssigner】分子断片の有無を判定するFPを用いて,基質から生成物の化学変化を計算し,ユークリッド距離の類似度に基づいて化学反応のEC番号3桁目までを予測する(2012)
- 【DRFP】基質→生成物の変化を高次元のECFPで表現し,多層パーセプトロンで1~3桁目まで予測
- データ数が非常に多い
- FPを用いたEC番号予測では最新(2023.11)の手法だと思われる
タンパク質配列を用いた手法
EC番号予測で最も多い手法
- 2018年以降から4桁全て予測できるような手法が開発されており(ECPred,DeepEC,CLEAN),EnzymeNetが最も高精度だと思われる(2023.11現在)
手法の使い分け
EC番号を単に予測するだけならタンパク質配列を用いた方が高精度(高度な専門知識)
- 多くの研究は生物よりで配列の性質を特定するためにEC番号を予測する
- 酵素の性質の特定が進めば,有機合成に活かせるのも事実
- 一部では酵素の化学反応目線で行われている
化学反応目線なら物理・化学的特性値やFP,生物向けならタンパク質配列を推奨
卒論でやったこと
- Self-Organizing Map(SOM)を用いたEC3の4桁目(EC 3.1.1)の予測モデル開発
- Random Forests(RF)を用いたEC3の2,3桁目の予測モデル開発
卒論のメリット
- 天然には存在しない酵素反応に対してEC番号を予測したこと
- 【MOLMAPxRF】や【ECAssigner】は自然界に存在する酵素反応を中心に扱うKEGGのデータを用いてモデル作成・予測していたが,卒論は非天然の酵素反応(合成実験など)を多く扱うBRENDAのデータの予測を行っていた点(より現実の有機合成に合わせた予測)
卒論の課題
- 予測の信頼性向上のためのデータ拡充で,BRENDAの酵素反応を自動収集スクレイピングする機能を開発する必要があった(BRENDA API)
修論でやったこと
- Random Forests(RF)を用いた全EC番号(EC7を除く)の1~3桁目の予測モデル開発
卒論後に発表された【DRFP】で大量のBRENDAデータだけでなく,Rhea,BRENDA,PathBank,MetaNetXの(KEGGにはない)酵素反応を収録したデータセットが用いられ,
スクレイピング以上に十分なデータが集まった.(その代わり【DRFP】と結果を比較する必要が生じた)
修論のメリット
FP(部分構造の有無)とや物理・化学的特性値の併用
- FP=学習時間短,化学反応情報少 ⇔ 特性値=学習時間長,化学反応情報多 のトレードオフ
- 有機合成視点では,物理化学特性値を優先
RDKit記述子(85部分構造,125特性値)を用いることで,学習時間を抑えつつ,反応情報量を増やした点
修論技術と数値実験
技術資料?を参照
修論の改善点と応用