データ分割と交差検証の履歴(No.2) | 奥原研究室・Rene研究室ログ

[ トップ ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ ]

履歴一覧
差分を表示
現在との差分を表示
ソースを表示
データ分割と交差検証へ行く。
- 1 (2024-01-22 (月) 12:05:37)
- 2 (2024-01-22 (月) 14:05:55)
- 3 (2024-01-22 (月) 18:05:42)
- 4 (2024-01-22 (月) 22:51:14)

交差検証によるパラメータ調整

データ分割・調整手順

1. train・testに分割

2. K分割交差検証によって，trainを"調整用train"・"検証データ"に分割

"調整用train"と"検証データ"の分割をK回実行する

(Shuffleしない限り)trainデータが全て"調整用train"と"検証データ"の役が回るようにする
- 1回のみの分割でパラメータ調整すると，そのときの「"調整用train"に対する"検証データ"スコア」で最も高いパラメータが選ばれてしまい，他の"調整用train"・"検証データ"の組み合わせに対しては最適でない可能性がある
- 全ての"調整用train"・"検証データ"の組み合わせに対してバランスよく評価の高いパラメータを選ぶ際に交差検証が有効

3. 1つのパラメータ組み合わせに対して，K通りの「"調整用train"に対する"検証データ"スコア」を算出し，平均化

4. 平均スコアが最も高いパラメータで学習モデル構築

GridSearchCVの場合，「.best_estimator_」の中に最適パラメータのモデルが入っているため，これを用いる．

PipeLineなしの場合
gscv = GridSearchCV(estimator(学習器), param_grid(辞書式パラメータリスト), 
       scoring(f1_macro/f1_microなど), cv(Kの数), verbose = 1)
gscv.fit(trainX, trainY)  # 自動的にK通りの"調整用train"・"検証データ"の組み合わせで各パラメータパターンの平均スコアが算出
gscvBM = gscv.best_estimator_
print(gscvBM.score(testX, testY))  # testデータに対する評価

*1