技術資料

研究背景 

0.1 環境構築 

本プログラムはAnaconda上で実装する

Anacondaインストール 

以下のページからインストール https://www.anaconda.com/download#downloads

rdkitチャネル(仮想環境)の作成 

仮想環境の補足 

手順 

WindowsボタンからAnaconda Promptを開く

バージョン取得

python -V

rdkitチャネル作成

# 研究当時のバージョン
conda create -n rdkit python=3.8.8 -y

※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)

conda activate rdkit

rdkitライブラリの導入(pipでは不可)

conda install rdkit -c conda-forge

jupyterカーネル導入

pip install jupyter environment_kernels

jupyter起動

jupyter notebook

Jupyterのプログラムを起動するとき 

anaconda promptを起動し,(base)の部分で以下を入力

(base) C:\Users\~~~>activate rdkit

base→rdkitに切り替わったら,Jupyter起動

(rdkit) C:\Users\~~~>jupyter notebook
jupyter_dir.jpg

ディレクトリを辿って「master_ECprediction」まで行き,「~.ipynb」を起動する

0.2 プログラム実行時の補足 

実行するプログラムファイル 

以下2ファイルで構成される

プログラムの取り扱い説明 

リスタートポイントについて 

途中からプログラムを実行できるようにあらかじめ保存したファイルを読み込み再開できる仕組み

1.1 モデル構築用データセット作成(ECprediction_dataset.ipynb) 

1.2 プログラム順次実行 

モジュールインストール 

pip install rdkit

元データセットを1つの化合物SMILESに分解 

特性値計算不可の化合物SMILES削除 

SMILES形式の化合物から210種の特性値を計算する際,発散値を持つ化合物が存在するため,そのような化合物を除去

リスタートポイント1から5の前までのセル

整理された左辺と右辺のSMILES反応式データフレームが出力される(left_smsDF5, right_smsDF5)

210次元特徴ベクトルの作成 

リスタートポイント5から最後までのセル

2. EC番号分類モデルの作成,テストデータの分類 

「ECprediction_model.ipynb」を実行

モジュールインストール(多クラス分類,SMOTE用) 

pip install scikit-learn==1.0.2
pip install imblearn

データ数が5個以下のものを削除する 

EC番号が3桁目まで存在するクラスのみ抽出 

削除するデータ 

【懸念事項】ラベル変更によるクラス分布の変動(交差検証) 

4桁までのクラスで層化抽出したデータを1桁or1~3桁に変更した場合,各クラスの学習データとテストデータの割合は一定かどうか(層化抽出が崩れていないか)

 


*1 詳しくはD. Probst, An explainability framework for deep learning on chemical reactions exemplified by enzyme-catalysed reaction classification, 2023

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS