武藤?

交差検証によるパラメータ調整 

データ分割・調整手順 

1. train / testに分割 

2. K分割交差検証によって,trainを"調整用train" / "検証データ"に分割 

"調整用train"と"検証データ"の分割をK回実行する

3. 1つのパラメータ組み合わせに対して,K通りの「"調整用train"に対する"検証データ"スコア」を算出し,平均化*1 

4. 平均スコアが最も高いパラメータで学習モデル構築 

5. 学習モデルでtestを予測 

print(gscvBM.score(testX, testY))  # testに対する評価

testは未知データに対する汎化性能評価のために用いられる

補足 

未知データ(test)に対して交差検証は必要か?(パラメータ調整に加えて)

参考 

交差検証でシャッフルするかしないかの議論 

StratifiedKFold(shuffle = True/False)について 

「StratifiedShuffleSplit」について 


*1 GridSearchCVドキュメントのAttributes(best_score_)の項目参照「https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
*2 ドキュメントの図参照「https://scikit-learn.org/stable/modules/cross_validation.html

トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS