卒業研究(武藤)
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
検索
|
最終更新
|
ヘルプ
]
開始行:
[[武藤]]
#contents
*有機合成での化学反応に用いる最適な酵素の予測 [#t0544003]
研究を始めた経緯
-3Dグラフの遺伝子マップ(kegg pathway)を何かに使えないか生...
-代わりに学内の有機化学研究において、酵素を用いた逆合成解...
**1.背景 [#ibba64bb]
-有機化合物(高分子など)の合成では触媒として酵素が用いられ...
--人工的な触媒に対して、酵素は自然にやさしく、反応がより...
-熟練の合成研究者ならどの酵素を使うべきかはだいたい分かる
--最適候補を決め、実験(スクリーニング)によって1つの酵素に...
--経験豊富でない場合、酵素DBや酵素研究者との実験などで探...
--最適酵素「候補」を予測し、探索時間を短縮できるような機...
*** [#a20dbf67]
本研究は前半と後半に分かれ、前半は教師なしのクラスタリン...
**2.酵素分野の基礎事項 [#e8c69110]
-酵素はEC番号で管理されている
--4桁の番号で、1~3番はどの反応・化合物に作用するかで分類...
--基本的にKEGGなどのDBに登録されており、自然界で化合物に...
--1つのEC番号4桁に属する酵素は基本複数ある(BRENDA記載のも...
*** [#e23d1dcb]
予測したいのは厳密には酵素ではなくEC番号になる(EC番号が「...
**3. ケモインフォマティクス技術と情報技術 [#xce81ad4]
ケモインフォマティクス:~
酵素の探索にしても、化学反応の設計にしてもコンピュータで...
-MOL,SDFファイル
--1つの化合物の分子の位置や構造情報を行列のようなもので表...
--MOLは1つの化合物でSDFは複数のMOLをつなげたもの(DBで化合...
-SMILES
--化合物の構造式を文字列で表したもの
--@や[]を使うことで3次元構造を上手く表現する
--イメージ的にこれ単体で使うことはなく、データのコンパク...
-ベクトル
--化合物に対して、分子量や電荷の偏りなどの物性値・化学値...
--計算したn種類の物性値をn次元ベクトルで表現することで、...
--物性値計算ライブラリが豊富にある(本研究はRDKitを使用)
-フィンガープリント
--化合物が「-OH」,「-CH4」といった特定の部分構造を持って...
--物性値が化合物全体の特性をみるとするなら、フィンガープ...
-Pythonライブラリ「RDKit」
--なんでもできてしまうケモインフォマティクスの便利屋
--SDFファイルを取得し、構造式を描画、SMILES変換、208種類...
--日本語ドキュメントだけでなく、Webにも分かりやすい教科書...
**5.1. 数値実験(概要) [#i97b5d95]
**5.2. 数値実験(結果)* [#tb935e6c]
**6. おわりに [#c2ecc643]
*** 現在の状況と今後の展望 [#w53a9ed7]
-依然「代謝経路解析のための酵素予測モデル」が主流であり,...
-KEGG(天然)の酵素反応データ予測モデルはやり尽くされている...
--それぞれのEC番号ページ→「Enzyme-Ligand Interactions」→...
から化合物の反応式molファイルを取得
--BRENDAのデータ数の方が多いが,「手動で単語を取得→検索→m...
--BRENDAが提供するSOAPアルゴリズムなら自動化する方法が載...
--
**データ収集(.RはR言語で実装されたソースコード) [#od8b5726]
geneGraphフォルダ
***「CompoundIDs.R」を用いたデータ取得 [#pd852f62]
「https://rstudio-pubs-static.s3.amazonaws.com/472676_97a...
-write.csv(cpd_pub,"KEGG_CIDtoPubChemSID.csv")の行まで全...
--KEGG COMPOUNDに収録されている化合物(番号KEGG CIDで表記)...
-「PubChem Identifier Exchange Service」を用い、pubchemSI...
-- 途中出力された「KEGG_CIDtoPubChemSID.csv」の「pubchem_...
--「https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchang...
#ref(PubChem Identifier Exchange Service.jpg,,50%)
--%%変換後txtファイルのリンクに飛び,右クリックから「名前...
--自動で出力されたtxtファイルの1行目にpubchem_SID(Tabキー...
pubchem_SID pubchem_CID
3303 962
3304 5957
3305 5893
・・・・・
--出力ファイルを「pubchem_sid_cid.txt」にしたものが、「Co...
-残りの行を全コピペして実行
-kegg_CID&pubchemSID&CIDの対応表「kcid_psidcid.csv」と重...
--「kcid_psidcid.csv」はメインのJupyterコードで使用
--pubchemCIDが一意なのに対し,pubchemSIDにはダブりがある...
--%%(注)途中手動で行う部分が入るため,rの対話モードで1行...
%%→「<-」が代入になるのでそれが基準(%>%は連続代入なので分...
基本的には添付ファイルのファイルを使えば、この作業は短縮...
*** スクレイピング [#e0fad5ed]
PunChemのRestAPIを用いてSDFファイルを取得する
-ec_rsidの左右辺に入っているsidを抽出(リスト化)し、Pubche...
-- %%当初はpubchem CIDで取得しようとしたが、sid用のURIし...
--%%「PubChem Identifier Exchange Service」を用いず途中の...
-rdkitのChem.SDMolSupplierを用いてmolファイルに変換する
**ケモインフォマティクス [#b0e4f668]
***anaconda rdkit専用チャネルの作成 [#s7741da4]
バージョン取得
python -V
rdkit チャネル作成
conda create -n rdkit python=X.X.X -y
※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)
conda activate rdkit
rdkitライブラリの導入(pipでは不可)
conda install rdkit -c conda-forge
jupyterカーネル導入
pip install jupyter environment_kernels
**Reference [#j1aee409]
***第1章 [#u3785e72]
-1節
//--https://cicsj.csj.jp/
--ケモインフォマティクス市場、2021年から2026年の間にCAGR1...
~
https://prtimes.jp/main/html/rd/p/000002048.000071640.html
***第2章 [#odb7275e]
-1節
--Evolving to an Ideal Synthesis of Molnupiravir, an Inve...
~
Tamas Benkovics, John A. McIntosh, Steven M. Silverman, J...
--北川勲,磯部稔, "天然物化学・生物有機化学I", 朝倉書店, ...
--西村淳, 樋口弘行, 大和武彦, "有機合成化学入門 -基礎を理...
--"日本化学会・ケモインフォマティクス部会", {https://cics...
~ケモインフォマティクスの分野
--中野裕太, 瀧川一学, "化学反応ネットワークにおける最適反...
--佐藤寛子, "化学情報学 - 化学反応の系図と反応予測", 国立...
~ケモインフォマティクスの基礎
--藤波 美起登, 清野 淳司, "量子化学計算情報を記述子とした...
-1節
"特異なタンパク質進化Circular permutation による酵素の機...
{https://www.amano-enzyme.co.jp/corporate/foundation/pdf...
~タンパク質工学の話
-3節
--https://www.genome.jp/kegg/kegg_ja.html
--https://pubchem.ncbi.nlm.nih.gov/
【手順】
-31行目までを順次実行(kegg_CID,pubchemSIDの対応表csvを取得)
-最後の対応表,重複pubchemSIDリストを作るため,PubChem Ide...
(https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchange.c...
--対応表csvの"pubchem_SID"列の要素だけをを新しいcsvにコピ...
--「Input ID List」でSIDsにして,作ったcsvをファイル選択
--「OperatorType」Same CID,「Output IDs」CIDs,「Output ...
--変換後txtファイルのリンクに飛び,右クリックから「名前を...
--保存したtxt内の1行目にpubchem_SID(Tabキーのスペース)pub...
の文字列を挿入しておく
-ソースコード内↓の行の.txt部分を作成したSID・CIDリストのt...
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t",...
-kegg_CID,pubchemSID&CIDの対応表と重複pubchemSIDを確認する
~
~
~
~
~
*テキストマイニングによる遺伝子間の関係性の可視化(没2) [#...
【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テ...
各サイトからスクレイピングした際,文章の結合ができない
→遺伝子配列同士を結合させると意味のないものになってしまう
自前で一貫した長い配列と辞書データベースを準備~
→スクレイピングがいらなくなる~
◎長い遺伝子配列に関するキーワードでスクレイピングして,出...
**案1:従来にほぼ近づけた方法 [#tbecc514]
(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子...
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる~
(3)重複遺伝子を除去し,隣接行列取得
**案2:↑の◎ [#p8c59909]
長い配列がある疾患のDNAとしたとき,その疾患に関係してくる...
~
*遺伝子データベースそれぞれのリンク先 [#o710129c]
**【KEGG API】学名(生物名)リスト [#y4ae4667]
http://rest.kegg.jp/list/organism
**【KEGG API】ヒト遺伝子vsパスウェイ対応表(パスウェイ順)(...
http://rest.kegg.jp/link/pathway/hsa
**【KEGG API】全パスウェイリスト[#ld3534ac]
http://rest.kegg.jp/list/pathway~
(通常サイト)>>>https://www.genome.jp/kegg/pathway.html
**KEGG関連のテキストマイニング作業について [#y950bf08]
https://sites.google.com/site/scriptofbioinformatics/cyto...
**【NCBI】ヒト完全ゲノムデータベース(サーバ内ディレクトリ...
https://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammal...
**BLASTP(タンパク質 相同性検索) [#q2494b41]
https://blast.ncbi.nlm.nih.gov/Blast.cgi
*スパース(疎)構造学習(没1) [#xab1cbea]
**1.侵入検知システム(機械学習型IDS) [#ka4416d4]
データセット:DARPA1998(TCPdumpしたトラフィックデータ)~
↓~
1分単位のパケット数を時系列特徴量とした~
↓~
対数差分系列データへ変換&標準化~
~
***目標:各時系列特徴間の直接相関関係のグラフ構造を求める...
→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行...
(変数間の直接相関を表す)を推定する問題=構造学習~
ノイズを排除して疎なAを求める~
→Graphical Lasso
***手順 [#e36e3576]
1.トラフィックデータをグラフ化~
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジ...
→全特徴量間に相関が出る完全グラフができた~
3.GLを適用すると疎なグラフ構造ができた~
4.グラフ表示時のトラフィックデータをNFPで学習させる~
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常...
5.精度98%の予測ができた(トラフィックデータ以外の様々な時...
~
-NFPとは~
--グラフ畳み込みNN(GCNN)を化学分野に応用したもの
--化学の分子構造をグラフとみて学習させ水溶度・毒性などの...
作ったグラフにGraphical Lasso を適用して
終了行:
[[武藤]]
#contents
*有機合成での化学反応に用いる最適な酵素の予測 [#t0544003]
研究を始めた経緯
-3Dグラフの遺伝子マップ(kegg pathway)を何かに使えないか生...
-代わりに学内の有機化学研究において、酵素を用いた逆合成解...
**1.背景 [#ibba64bb]
-有機化合物(高分子など)の合成では触媒として酵素が用いられ...
--人工的な触媒に対して、酵素は自然にやさしく、反応がより...
-熟練の合成研究者ならどの酵素を使うべきかはだいたい分かる
--最適候補を決め、実験(スクリーニング)によって1つの酵素に...
--経験豊富でない場合、酵素DBや酵素研究者との実験などで探...
--最適酵素「候補」を予測し、探索時間を短縮できるような機...
*** [#a20dbf67]
本研究は前半と後半に分かれ、前半は教師なしのクラスタリン...
**2.酵素分野の基礎事項 [#e8c69110]
-酵素はEC番号で管理されている
--4桁の番号で、1~3番はどの反応・化合物に作用するかで分類...
--基本的にKEGGなどのDBに登録されており、自然界で化合物に...
--1つのEC番号4桁に属する酵素は基本複数ある(BRENDA記載のも...
*** [#e23d1dcb]
予測したいのは厳密には酵素ではなくEC番号になる(EC番号が「...
**3. ケモインフォマティクス技術と情報技術 [#xce81ad4]
ケモインフォマティクス:~
酵素の探索にしても、化学反応の設計にしてもコンピュータで...
-MOL,SDFファイル
--1つの化合物の分子の位置や構造情報を行列のようなもので表...
--MOLは1つの化合物でSDFは複数のMOLをつなげたもの(DBで化合...
-SMILES
--化合物の構造式を文字列で表したもの
--@や[]を使うことで3次元構造を上手く表現する
--イメージ的にこれ単体で使うことはなく、データのコンパク...
-ベクトル
--化合物に対して、分子量や電荷の偏りなどの物性値・化学値...
--計算したn種類の物性値をn次元ベクトルで表現することで、...
--物性値計算ライブラリが豊富にある(本研究はRDKitを使用)
-フィンガープリント
--化合物が「-OH」,「-CH4」といった特定の部分構造を持って...
--物性値が化合物全体の特性をみるとするなら、フィンガープ...
-Pythonライブラリ「RDKit」
--なんでもできてしまうケモインフォマティクスの便利屋
--SDFファイルを取得し、構造式を描画、SMILES変換、208種類...
--日本語ドキュメントだけでなく、Webにも分かりやすい教科書...
**5.1. 数値実験(概要) [#i97b5d95]
**5.2. 数値実験(結果)* [#tb935e6c]
**6. おわりに [#c2ecc643]
*** 現在の状況と今後の展望 [#w53a9ed7]
-依然「代謝経路解析のための酵素予測モデル」が主流であり,...
-KEGG(天然)の酵素反応データ予測モデルはやり尽くされている...
--それぞれのEC番号ページ→「Enzyme-Ligand Interactions」→...
から化合物の反応式molファイルを取得
--BRENDAのデータ数の方が多いが,「手動で単語を取得→検索→m...
--BRENDAが提供するSOAPアルゴリズムなら自動化する方法が載...
--
**データ収集(.RはR言語で実装されたソースコード) [#od8b5726]
geneGraphフォルダ
***「CompoundIDs.R」を用いたデータ取得 [#pd852f62]
「https://rstudio-pubs-static.s3.amazonaws.com/472676_97a...
-write.csv(cpd_pub,"KEGG_CIDtoPubChemSID.csv")の行まで全...
--KEGG COMPOUNDに収録されている化合物(番号KEGG CIDで表記)...
-「PubChem Identifier Exchange Service」を用い、pubchemSI...
-- 途中出力された「KEGG_CIDtoPubChemSID.csv」の「pubchem_...
--「https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchang...
#ref(PubChem Identifier Exchange Service.jpg,,50%)
--%%変換後txtファイルのリンクに飛び,右クリックから「名前...
--自動で出力されたtxtファイルの1行目にpubchem_SID(Tabキー...
pubchem_SID pubchem_CID
3303 962
3304 5957
3305 5893
・・・・・
--出力ファイルを「pubchem_sid_cid.txt」にしたものが、「Co...
-残りの行を全コピペして実行
-kegg_CID&pubchemSID&CIDの対応表「kcid_psidcid.csv」と重...
--「kcid_psidcid.csv」はメインのJupyterコードで使用
--pubchemCIDが一意なのに対し,pubchemSIDにはダブりがある...
--%%(注)途中手動で行う部分が入るため,rの対話モードで1行...
%%→「<-」が代入になるのでそれが基準(%>%は連続代入なので分...
基本的には添付ファイルのファイルを使えば、この作業は短縮...
*** スクレイピング [#e0fad5ed]
PunChemのRestAPIを用いてSDFファイルを取得する
-ec_rsidの左右辺に入っているsidを抽出(リスト化)し、Pubche...
-- %%当初はpubchem CIDで取得しようとしたが、sid用のURIし...
--%%「PubChem Identifier Exchange Service」を用いず途中の...
-rdkitのChem.SDMolSupplierを用いてmolファイルに変換する
**ケモインフォマティクス [#b0e4f668]
***anaconda rdkit専用チャネルの作成 [#s7741da4]
バージョン取得
python -V
rdkit チャネル作成
conda create -n rdkit python=X.X.X -y
※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)
conda activate rdkit
rdkitライブラリの導入(pipでは不可)
conda install rdkit -c conda-forge
jupyterカーネル導入
pip install jupyter environment_kernels
**Reference [#j1aee409]
***第1章 [#u3785e72]
-1節
//--https://cicsj.csj.jp/
--ケモインフォマティクス市場、2021年から2026年の間にCAGR1...
~
https://prtimes.jp/main/html/rd/p/000002048.000071640.html
***第2章 [#odb7275e]
-1節
--Evolving to an Ideal Synthesis of Molnupiravir, an Inve...
~
Tamas Benkovics, John A. McIntosh, Steven M. Silverman, J...
--北川勲,磯部稔, "天然物化学・生物有機化学I", 朝倉書店, ...
--西村淳, 樋口弘行, 大和武彦, "有機合成化学入門 -基礎を理...
--"日本化学会・ケモインフォマティクス部会", {https://cics...
~ケモインフォマティクスの分野
--中野裕太, 瀧川一学, "化学反応ネットワークにおける最適反...
--佐藤寛子, "化学情報学 - 化学反応の系図と反応予測", 国立...
~ケモインフォマティクスの基礎
--藤波 美起登, 清野 淳司, "量子化学計算情報を記述子とした...
-1節
"特異なタンパク質進化Circular permutation による酵素の機...
{https://www.amano-enzyme.co.jp/corporate/foundation/pdf...
~タンパク質工学の話
-3節
--https://www.genome.jp/kegg/kegg_ja.html
--https://pubchem.ncbi.nlm.nih.gov/
【手順】
-31行目までを順次実行(kegg_CID,pubchemSIDの対応表csvを取得)
-最後の対応表,重複pubchemSIDリストを作るため,PubChem Ide...
(https://pubchem.ncbi.nlm.nih.gov/idexchange/idexchange.c...
--対応表csvの"pubchem_SID"列の要素だけをを新しいcsvにコピ...
--「Input ID List」でSIDsにして,作ったcsvをファイル選択
--「OperatorType」Same CID,「Output IDs」CIDs,「Output ...
--変換後txtファイルのリンクに飛び,右クリックから「名前を...
--保存したtxt内の1行目にpubchem_SID(Tabキーのスペース)pub...
の文字列を挿入しておく
-ソースコード内↓の行の.txt部分を作成したSID・CIDリストのt...
scid <- readr::read_delim("./pubchem_sid_cid.txt", "\t",...
-kegg_CID,pubchemSID&CIDの対応表と重複pubchemSIDを確認する
~
~
~
~
~
*テキストマイニングによる遺伝子間の関係性の可視化(没2) [#...
【従来研究】単語関係の可視化(Web,Twitterスクレイピング&テ...
各サイトからスクレイピングした際,文章の結合ができない
→遺伝子配列同士を結合させると意味のないものになってしまう
自前で一貫した長い配列と辞書データベースを準備~
→スクレイピングがいらなくなる~
◎長い遺伝子配列に関するキーワードでスクレイピングして,出...
**案1:従来にほぼ近づけた方法 [#tbecc514]
(1)各リンク内の遺伝子配列に対して,辞書を参考にして遺伝子...
(2)単語リストのときと同様に抽出した遺伝子をリストに入れる~
(3)重複遺伝子を除去し,隣接行列取得
**案2:↑の◎ [#p8c59909]
長い配列がある疾患のDNAとしたとき,その疾患に関係してくる...
~
*遺伝子データベースそれぞれのリンク先 [#o710129c]
**【KEGG API】学名(生物名)リスト [#y4ae4667]
http://rest.kegg.jp/list/organism
**【KEGG API】ヒト遺伝子vsパスウェイ対応表(パスウェイ順)(...
http://rest.kegg.jp/link/pathway/hsa
**【KEGG API】全パスウェイリスト[#ld3534ac]
http://rest.kegg.jp/list/pathway~
(通常サイト)>>>https://www.genome.jp/kegg/pathway.html
**KEGG関連のテキストマイニング作業について [#y950bf08]
https://sites.google.com/site/scriptofbioinformatics/cyto...
**【NCBI】ヒト完全ゲノムデータベース(サーバ内ディレクトリ...
https://ftp.ncbi.nih.gov/genomes/refseq/vertebrate_mammal...
**BLASTP(タンパク質 相同性検索) [#q2494b41]
https://blast.ncbi.nlm.nih.gov/Blast.cgi
*スパース(疎)構造学習(没1) [#xab1cbea]
**1.侵入検知システム(機械学習型IDS) [#ka4416d4]
データセット:DARPA1998(TCPdumpしたトラフィックデータ)~
↓~
1分単位のパケット数を時系列特徴量とした~
↓~
対数差分系列データへ変換&標準化~
~
***目標:各時系列特徴間の直接相関関係のグラフ構造を求める...
→(多変量正規分布を想定)ガウス型グラフィカルモデルに精度行...
(変数間の直接相関を表す)を推定する問題=構造学習~
ノイズを排除して疎なAを求める~
→Graphical Lasso
***手順 [#e36e3576]
1.トラフィックデータをグラフ化~
2.制度行列Aから算出した変相関係数を用いて描画(多分エッジ...
→全特徴量間に相関が出る完全グラフができた~
3.GLを適用すると疎なグラフ構造ができた~
4.グラフ表示時のトラフィックデータをNFPで学習させる~
(グラフ時系列データにラベルを付与し、NFPで学習させ、異常...
5.精度98%の予測ができた(トラフィックデータ以外の様々な時...
~
-NFPとは~
--グラフ畳み込みNN(GCNN)を化学分野に応用したもの
--化学の分子構造をグラフとみて学習させ水溶度・毒性などの...
作ったグラフにGraphical Lasso を適用して
ページ名: