Question

ある金融機関のMLチームが、時系列の取引データを使って不正検知モデルをトレーニングしています。時系列データのモデル評価においてランダム分割（random split）ではなく時系列分割（time-based split）を使うべき主な理由として最も適切なものはどれですか。

Accepted Answer

ランダム分割では将来のデータが過去のデータを予測するという情報漏洩（Data Leakage）が発生し、実際の運用性能を過大評価してしまうため

Answer

時系列分割のほうがトレーニングセットのサンプル数が多くなるためモデルの精度が上がる

Answer

ランダム分割では GPU のメモリ使用効率が悪化するため、時系列分割のほうが計算コストが低い

Answer

時系列分割を使うと交差検証のフォールド数が自動的に増え、評価の信頼性が高まる

同じ分野の関連問題