あるデータサイエンティストが機械学習プロジェクトのデータ前処理を行っています。モデルのトレーニング品質向上のために実施すべき前処理ステップを2つ選択してください。
- A. 全サンプルをランダムに削除してデータセットをできる限り小さくする
- B. 数値特徴量をスケーリング(正規化・標準化)してアルゴリズムの収束を助ける
- C. ターゲット変数(目的変数)をトレーニング前に特徴量ベクトルから除外する処理を省略する
- D. 欠損値(Missing Values)を適切な値(平均値・中央値・最頻値など)で補完する
- E. テストデータの正解ラベルをトレーニングデータに混入させてモデルの精度を上げる
解答と解説を見る
正解: B, D
欠損値の補完は多くのアルゴリズムが欠損値を含むデータを処理できないため、前処理として必須のステップです(D)。数値特徴量のスケーリングは、スケールの異なる特徴量がある場合に勾配降下法の収束を速めたり、距離ベースのアルゴリズム(KNN、SVMなど)の性能を改善します(B)。テストデータのラベルをトレーニングに混入させることはデータリーク(Data Leakage)を引き起こし、モデル評価を無効にする深刻な誤りです(E)。サンプルをランダムに削除するとモデルの汎化性能が低下します(A)。目的変数を特徴量から除外しないことはターゲットリークを引き起こし、過剰に楽観的な評価となります(C)。