#author("2024-03-08T00:40:00+00:00","","") #author("2024-03-08T00:44:50+00:00","","") [[由利恵]] *目次 [#aa932564] #CONTENTS *有機合成に最適な酵素候補提示のための特徴量エンジニアリングによる EC 番号予測 [#f65a5e62] **プログラム [#t0be0f3f] 容量が大きかったため、ここには載せることが出来なかった~ [[Google Drive1920:https://drive.google.com/drive/u/2/folders/1LOXsAKEXm47aG4fh4hRhD20skj2iDdE6]] 学生→20_o4武藤(さん)→~ からプログラムを持ってくる~ **準備 [#s69c86f8] ***Anaconda [#l175a5e1] プログラムを実行するときには「コマンドプロンプト」からではなく「Anaconda Prompt」で行う~ [[Anaconda:https://www.anaconda.com/download/]]~ からダウンロードする~ anacondaを立ち上げたときに~ #ref(m6.png) となっていたら conda activate rdkit を入力し(rdkit)に変える~ **説明 [#rbdca96a] ***加工(dataset) [#a9835a99] 1つ1つの中身はコメントアウトで書いてくださっている~ - ''&color(black){left/right_sms};''~ 化学反応式SMILESのデータセットを読み込み、右辺と左辺に分割させる #br #ref(m1.png,,40%) #br #ref(m2.png,,40%) #br - ''&color(black){left/right_smsDF};''~ left/right_smsのデータを表に起こした~ #br #ref(m3.png,,40%) #br #ref(m4.png,,40%) #br - ''&color(black){remv_smsDF};''~ #br #ref(m5.png,,40%) - ''&color(black){FeatV};''~ 化合物の特性値の情報が書かれている #ref(m7.png,,40%) - ''&color(black){ECdf6};''~ 計算結果の呼び出し #ref(m8.png,,40%) - ''&color(black){left_vec};''~ 左辺の全化合物に対して210種の特性値を計算結果 #ref(m9.png,,40%) ''&color(black){right_vec};''~ ''&color(black){right_vec};''~ 右辺の全化合物に対して210種の特性値を計算結果 #ref(m10.png,,40%) ***モデル [#jf8d03b7] ''&color(black){diff_vecDF5};''~ 特性値変化量が全て0のデータ削除した結果 #ref(m11.png,,40%) ''&color(black){Xtest};''~ テストデータ・ラベルの保存 #ref(m12.png,,40%) ''&color(black){Xtrain};''~ 学習データ・ラベルの保存 #ref(m13.png,,40%) ''&color(black){scores_X};''~ 1~30までの記述子組合せスコアのリスト #ref(m14.png,,40%) ''&color(black){repoXdf_re};''~ テストデータ分類結果 #ref(m15.png,,40%) ''&color(black){Xtest1XX };''~ テストデータの作成 #ref(m16.png,,30%) ''&color(black){best_model1XX};''~ 最適モデルの読み込み #ref(m17.png,,40%) ''&color(black){repo1XX};''~ テストデータの分類結果 #ref(m18.png,,40%) ''&color(black){scores_X};''~ ''&color(black){scores_X};''~ ・あなこんだインストール ・アナコンダプロンプトから anaconda rdkit専用チャネルの作成 入力 ・x-x-xの部分は3.8.8を入力