AI-900機械学習の基本原則MEDIUM単一選択

あるデータサイエンティストが機械学習モデルを訓練したところ、訓練データに対する精度は98%だったが、テストデータに対する精度は62%にとどまった。このような現象を何というか。また、この問題の主な原因として最も適切なものはどれか。

  1. A. 過学習(オーバーフィッティング):モデルが訓練データに特化しすぎて汎化できていない
  2. B. クラス不均衡:陽性サンプルが極端に少ないため精度が水増しされている
  3. C. データリーク:テストデータの情報が訓練段階に混入している
  4. D. アンダーフィッティング:モデルが単純すぎて訓練データのパターンも学習できていない
解答と解説を見る

正解: A

過学習(オーバーフィッティング)は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知データへの汎化性能が大幅に低下する現象である。訓練精度98%・テスト精度62%という大きなギャップはその典型。対策としては正則化・ドロップアウト・データ拡張・訓練データ増加などが有効。Dのアンダーフィッティングは訓練精度も低い場合に起きるものであり、訓練精度が98%と高い本問とは矛盾する。Cのデータリークはテスト精度が実際より高く見える現象であり、テスト精度が低い本問とは逆の状況。Bのクラス不均衡は精度の水増しを招くが、訓練・テスト精度の大きなギャップを直接引き起こすものではない。

▸ この試験を本気で演習する(全150問・無料)