AIF-C01AI と ML の基礎HARD単一選択

ある金融機関のMLチームが、時系列の取引データを使って不正検知モデルをトレーニングしています。時系列データのモデル評価においてランダム分割(random split)ではなく時系列分割(time-based split)を使うべき主な理由として最も適切なものはどれですか。

  1. A. 時系列分割のほうがトレーニングセットのサンプル数が多くなるためモデルの精度が上がる
  2. B. ランダム分割では GPU のメモリ使用効率が悪化するため、時系列分割のほうが計算コストが低い
  3. C. ランダム分割では将来のデータが過去のデータを予測するという情報漏洩(Data Leakage)が発生し、実際の運用性能を過大評価してしまうため
  4. D. 時系列分割を使うと交差検証のフォールド数が自動的に増え、評価の信頼性が高まる
解答と解説を見る

正解: C

時系列データをランダム分割すると、テストセットに含まれる「過去の」データポイントが、トレーニングセットに含まれる「未来の」データポイントを予測するという因果関係の逆転が起きます。これは情報漏洩(データリーク)の一形態であり、モデルが実際には知り得ない未来情報を間接的に学習してしまい、本番環境では実現できない楽観的な精度を計測してしまいます。時系列分割はトレーニング期間・テスト期間を時系列順に保持し、モデルが学習した過去のパターンで未来を予測するという実運用条件を正確にシミュレートします。サンプル数の増加や交差検証のフォールド数、GPUのメモリ効率は時系列分割の本来の目的とは無関係です。

▸ この試験を本気で演習する(全150問・無料)