AI-900機械学習の基本原則MEDIUM単一選択

あるデータサイエンティストが機械学習モデルを訓練したところ、訓練データに対する精度は98%だったが、テストデータに対する精度は62%にとどまった。このような現象を何というか。また、この問題の主な原因として最も適切なものはどれか。

A. 過学習（オーバーフィッティング）：モデルが訓練データに特化しすぎて汎化できていない
B. クラス不均衡：陽性サンプルが極端に少ないため精度が水増しされている
C. データリーク：テストデータの情報が訓練段階に混入している
D. アンダーフィッティング：モデルが単純すぎて訓練データのパターンも学習できていない

解答と解説を見る

正解: A

過学習（オーバーフィッティング）は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知データへの汎化性能が大幅に低下する現象である。訓練精度98%・テスト精度62%という大きなギャップはその典型。対策としては正則化・ドロップアウト・データ拡張・訓練データ増加などが有効。Dのアンダーフィッティングは訓練精度も低い場合に起きるものであり、訓練精度が98%と高い本問とは矛盾する。Cのデータリークはテスト精度が実際より高く見える現象であり、テスト精度が低い本問とは逆の状況。Bのクラス不均衡は精度の水増しを招くが、訓練・テスト精度の大きなギャップを直接引き起こすものではない。

▸ この試験を本気で演習する（全150問・無料）

同じ分野の関連問題