武藤?
機械学習
バイアスとバリアンス
モデルのデータに対するフィット度合いを指す
- 線形モデル
- バイアス高,バリアンス低
データ点への近似が甘いが,データ増減によるモデル変化が少ない
- 非線形モデル
- バイアス低,バリアンス高
データ分布により近い回帰曲線になるが,データ増減でモデルが大きく変化(汎化性能弱)
ランダムフォレスト
- 決定木の強化版
- 決定木(非線形モデル)の低バイアスを改善
- 決定木作成時に一部訓練データのみ使用
- 指定した数だけの特徴量を使用
- パラメータ調整をあまりしなくてよい(初心者向け)
ハイパーパラメータ(手動設定のパラメータ)
sklearn.ensemble.RandomForestClassifier の場合
- n_estimaters(デフォルト100)
- max_features(デフォルト:特徴量数の√)
- max_depth(木の最大深度)
- デフォルトだと葉まで(教師データの完全クラス分け)
- 決定木が少ないときに制約をかけると分類性能向上?