武藤/修論研究(22.04-24.03)
化学反応に最適なEC番号予測モデルの開発
卒論後半手法 & 学会論文の拡張
研究背景
有機合成=化合物を合成して目的の有機化合物を生成する(反応の設計)
- 有機合成では効率性や環境面から化学反応の設計に生体触媒(酵素)が利用される機会が増加
- 酵素は化学触媒よりも環境に優しく,特定の反応物に強く作用して化学反応を早く進める
- 酵素は4桁のEC番号で分類されている
- EC番号を機械学習で予測することで,酵素分析(以下)を行う実験コストや時間の削減になる
- 代謝経路の解析で得られた未知の酵素の性質の特定
- 特定の化学反応を触媒する酵素の探索
目的
- 反応物(基質)から生成物に変化する化学反応に用いるべき最適な酵素候補をEC番号として提示する機械学習モデル(EC番号予測システム)の開発
- 最適な酵素の探索は合成実験などで行われるが,探索範囲を予測されたEC番号内の酵素製品に絞り込むことができ,実験時間・コストの短縮になる.
- 代謝経路の探索よりも有機合成に焦点を当ててEC番号を予測する
EC番号予測分野のエッセンス
EC番号
- 性質に応じて酵素を分類するラベル
- あるEC番号の酵素が持つたんぱく質配列や触媒する化学反応の情報が分かる(KEGG, BRENDAなど)
- 逆に未知のタンパク質配列 or 化学反応が与えられたときにEC番号を予測するという流れが機械学習
類似性の原理
原著は1990年の書籍 *1
類似性を用いた研究の多くがこの書籍を参考にしている →原著(有料で閲覧難)
- 「構造的に類似する化合物は類似する性質を有する」という原理で,生物・化学分野ではこの考えが良く用いられる.
- 生物分野では.遺伝子解析で得られた性質が未知なタンパク質配列に対して,データベース上で類似する配列を検索し,「未知のタンパク質が類似したタンパク質のような機能をもっているのではないか」とおおまかな当たりをつけるために用いることがある
- 化学分野では,既存の化合物と構造が少し異なる新規化合物を作る際に,構造が類似していることから,「既存の化合物生成に用いていた材料を同じように使う + 配合や試薬,実験環境を少し変えれば上手く作れるのではないか?」と言うアプローチができる
EC番号予測の場合
- 既存の酵素(EC番号)を用いた化学反応を用い,この反応にはこの酵素という分類学習を実施
- どの酵素を使えばよいか分からない化学反応の特徴と,既存の化学反応の特徴が類似していれば,既存の化学反応で用いられたEC番号を使うことで,所望の生成物をより効率的に得られる可能性がある
機械学習に求められること
類似性の上を行く自然の摂理を再現
- 類似するタンパク質をBLASTなどのデータベースで探索することが主流になってきているが,類似性スコアが低い配列しかヒットしなかったときの信頼性が問題になる
- 機械学習は観測データで世の中の現象を限りなく近似・再現するタスクのため,化学反応(タンパク質配列)が与えられたときに「このEC番号(酵素)を使う」「この配列はこのEC番号(こういう性質がある)」ということを断言することが目的になる
EC番号予測で用いられる情報技術
各種技術の説明や参考文献
バイオインフォマティクス・ケモインフォマティクス
情報技術を生物・化学分野に応用し,何かしらの分析を行う分野
ケモインフォマティクスの各種分析手法
以下のサイトを参考(ケモインフォマティクスの教科書的なもの)
こちらも参考(卒論で相関係数のクラスタリングを利用)
RDKit
Pyhotnのケモインフォマティクス分析ツール(卒修論で重宝)
フィンガープリント
EC番号予測の先行研究
EC番号予測手法の歴史
化合物の構造や物理・化学的特性値を用いた予測
- 反応物(基質)と生成物の化学構造のユニークなパターンを学習し,入力反応式のEC番号
を予測する方法
卒論でやったこと
- Self-Organizing Map(SOM)を用いたEC3の4桁目(EC 3.1.1)の予測モデル開発
- Random Forests(RF)を用いたEC3の2,3桁目の予測モデル開発