AI-900機械学習の基本原則MEDIUM単一選択

あるMLエンジニアが機械学習パイプラインを設計している。ハイパーパラメータのチューニングを行いたいが、テストデータをハイパーパラメータ選択に使ってしまうとモデルの最終評価が汚染される。この問題を避けるために、データを3つに分ける構成を取ることにした。3つの分割の名称と目的の正しい組み合わせはどれか。

  1. A. 検証データ(パラメータ更新)・訓練データ(ハイパーパラメータ調整)・テストデータ(最終評価)
  2. B. 訓練データ(パラメータ更新)・検証データ(ハイパーパラメータ調整)・テストデータ(最終評価)
  3. C. 訓練データ(パラメータ更新)・テストデータ(ハイパーパラメータ調整)・検証データ(最終評価)
  4. D. 訓練データ(パラメータ更新)・テストデータ(ハイパーパラメータ調整)・予測データ(最終評価)
解答と解説を見る

正解: B

機械学習の標準的なデータ分割は「訓練データ:モデルのパラメータを学習に使う」「検証データ:ハイパーパラメータ調整や早期停止判定に使う(学習には使わない)」「テストデータ:最終的な汎化性能を1回だけ評価するために使う」の3種である。Cはテストデータをハイパーパラメータ調整に使っており、これではテストデータが汚染されて最終評価が不公平になる。Aは検証データと訓練データの役割が逆転しており誤り。Dは「予測データ」という非標準的な用語を使っており、テストデータをハイパーパラメータ調整に使う点でも誤り。正解はBである。

▸ この試験を本気で演習する(全150問・無料)