技術資料

研究背景 

(0)環境構築 

本プログラムはAnaconda上で実装する

Anacondaインストール 

以下のページからインストール https://www.anaconda.com/download#downloads

rdkitチャネル(仮想環境)の作成 

仮想環境の補足 

手順 

WindowsボタンからAnaconda Promptを開く

バージョン取得

python -V

rdkitチャネル作成

conda create -n rdkit python=3.8.8 -y

※baseチャネルからrdkitチャネルに変更(Anaconda Prompt)

conda activate rdkit

rdkitライブラリの導入(pipでは不可)

conda install rdkit -c conda-forge

jupyterカーネル導入

pip install jupyter environment_kernels

jupyter起動

jupyter notebook

1.1 モデル構築用データセット作成 

「ECprediction_dataset.ipynb」を実行

Jupyter起動 

anaconda promptを起動し,(base)の部分で以下を入力

(base) C:\Users\~~~>activate rdkit

base→rdkitに切り替わったら,Jupyter起動

(rdkit) C:\Users\~~~>jupyter notebook

保存したフォルダまで行き,「ECprediction_dataset.ipynb」を起動する

1.2 プログラム順次実行 

起動時のルール 

モジュールインストール 

pip install rdkit

(2)EC番号分類モデルの作成,テストデータの分類 

「ECprediction_model.ipynb」を実行

モジュールインストール(多クラス分類,SMOTE用) 

pip install scikit-learn==1.0.2
pip install imblearn

データ数が5個以下のものを削除する 

EC番号が3桁目まで存在するクラスのみ抽出 

削除するデータ 

【懸念事項】ラベル変更によるクラス分布の変動(交差検証) 

4桁までのクラスで層化抽出したデータを1桁or1~3桁に変更した場合,各クラスの学習データとテストデータの割合は一定かどうか(層化抽出が崩れていないか)

 


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS