AIF-C01AI と ML の基礎MEDIUM複数選択

あるデータサイエンティストが機械学習プロジェクトのデータ前処理を行っています。モデルのトレーニング品質向上のために実施すべき前処理ステップを2つ選択してください。

  1. A. 全サンプルをランダムに削除してデータセットをできる限り小さくする
  2. B. 数値特徴量をスケーリング(正規化・標準化)してアルゴリズムの収束を助ける
  3. C. ターゲット変数(目的変数)をトレーニング前に特徴量ベクトルから除外する処理を省略する
  4. D. 欠損値(Missing Values)を適切な値(平均値・中央値・最頻値など)で補完する
  5. E. テストデータの正解ラベルをトレーニングデータに混入させてモデルの精度を上げる
解答と解説を見る

正解: B, D

欠損値の補完は多くのアルゴリズムが欠損値を含むデータを処理できないため、前処理として必須のステップです(D)。数値特徴量のスケーリングは、スケールの異なる特徴量がある場合に勾配降下法の収束を速めたり、距離ベースのアルゴリズム(KNN、SVMなど)の性能を改善します(B)。テストデータのラベルをトレーニングに混入させることはデータリーク(Data Leakage)を引き起こし、モデル評価を無効にする深刻な誤りです(E)。サンプルをランダムに削除するとモデルの汎化性能が低下します(A)。目的変数を特徴量から除外しないことはターゲットリークを引き起こし、過剰に楽観的な評価となります(C)。

▸ この試験を本気で演習する(全150問・無料)