ある金融機関のMLチームが、時系列の取引データを使って不正検知モデルをトレーニングしています。時系列データのモデル評価においてランダム分割(random split)ではなく時系列分割(time-based split)を使うべき主な理由として最も適切なものはどれですか。
- A. 時系列分割のほうがトレーニングセットのサンプル数が多くなるためモデルの精度が上がる
- B. ランダム分割では GPU のメモリ使用効率が悪化するため、時系列分割のほうが計算コストが低い
- C. ランダム分割では将来のデータが過去のデータを予測するという情報漏洩(Data Leakage)が発生し、実際の運用性能を過大評価してしまうため
- D. 時系列分割を使うと交差検証のフォールド数が自動的に増え、評価の信頼性が高まる
解答と解説を見る
正解: C
時系列データをランダム分割すると、テストセットに含まれる「過去の」データポイントが、トレーニングセットに含まれる「未来の」データポイントを予測するという因果関係の逆転が起きます。これは情報漏洩(データリーク)の一形態であり、モデルが実際には知り得ない未来情報を間接的に学習してしまい、本番環境では実現できない楽観的な精度を計測してしまいます。時系列分割はトレーニング期間・テスト期間を時系列順に保持し、モデルが学習した過去のパターンで未来を予測するという実運用条件を正確にシミュレートします。サンプル数の増加や交差検証のフォールド数、GPUのメモリ効率は時系列分割の本来の目的とは無関係です。