あるデータサイエンティストが機械学習モデルを訓練したところ、訓練データに対する精度は98%だったが、テストデータに対する精度は62%にとどまった。このような現象を何というか。また、この問題の主な原因として最も適切なものはどれか。
- A. 過学習(オーバーフィッティング):モデルが訓練データに特化しすぎて汎化できていない
- B. クラス不均衡:陽性サンプルが極端に少ないため精度が水増しされている
- C. データリーク:テストデータの情報が訓練段階に混入している
- D. アンダーフィッティング:モデルが単純すぎて訓練データのパターンも学習できていない
解答と解説を見る
正解: A
過学習(オーバーフィッティング)は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知データへの汎化性能が大幅に低下する現象である。訓練精度98%・テスト精度62%という大きなギャップはその典型。対策としては正則化・ドロップアウト・データ拡張・訓練データ増加などが有効。Dのアンダーフィッティングは訓練精度も低い場合に起きるものであり、訓練精度が98%と高い本問とは矛盾する。Cのデータリークはテスト精度が実際より高く見える現象であり、テスト精度が低い本問とは逆の状況。Bのクラス不均衡は精度の水増しを招くが、訓練・テスト精度の大きなギャップを直接引き起こすものではない。