あるデータサイエンティストが複数のMLアルゴリズム候補を比較評価しています。手持ちのデータが5,000件と比較的少量であり、できる限りすべてのデータを訓練と評価の両方に活用したいと考えています。この要件に最も適したモデル評価手法はどれですか。
- A. ブートストラップサンプリング
- B. トレーニングデータのみで評価するインサンプル評価
- C. k分割交差検証(k-Fold Cross Validation)
- D. ホールドアウト法(単純な7:3分割)
解答と解説を見る
正解: C
k分割交差検証はデータをk個のブロックに分割し、各ブロックを順番にテストセットとして使いながら残りで訓練するため、全データを訓練にも評価にも活用できます。データが少ない場合に特に有効で、バイアスと分散のバランスが取れた汎化性能の推定が得られます。ホールドアウト法は一部のデータを評価専用に固定するため、少量データでは訓練データが減りすぎて不安定な評価になりやすいです。ブートストラップサンプリングも有効ですが、k分割交差検証ほど広く使われておらず計算コストも高めです。インサンプル評価は過学習を検出できないため、モデル評価として不適切です。