技術資料

研究背景 

(0)環境構築 

本プログラムはAnaconda上で実装する

Anacondaインストール 

以下のページからインストール https://www.anaconda.com/download#downloads

rdkitチャネル(仮想環境)の作成 

(1)モデル構築用データセット作成 

「ECprediction_dataset.ipynb」を実行

モジュールインストール 

pip install rdkit

(2)EC番号分類モデルの作成,テストデータの分類 

「ECprediction_model.ipynb」を実行

モジュールインストール(多クラス分類,SMOTE用) 

pip install scikit-learn==1.0.2
pip install imblearn

データ数が5個以下のものを削除する 

EC番号が3桁目まで存在するクラスのみ抽出 

削除するデータ 

【懸念事項】ラベル変更によるクラス分布の変動(交差検証) 

4桁までのクラスで層化抽出したデータを1桁or1~3桁に変更した場合,各クラスの学習データとテストデータの割合は一定かどうか(層化抽出が崩れていないか)

 


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS