AIF-C01AI と ML の基礎MEDIUM複数選択

あるデータサイエンティストが機械学習プロジェクトのデータ前処理を行っています。モデルのトレーニング品質向上のために実施すべき前処理ステップを2つ選択してください。

A. 全サンプルをランダムに削除してデータセットをできる限り小さくする
B. 数値特徴量をスケーリング（正規化・標準化）してアルゴリズムの収束を助ける
C. ターゲット変数（目的変数）をトレーニング前に特徴量ベクトルから除外する処理を省略する
D. 欠損値（Missing Values）を適切な値（平均値・中央値・最頻値など）で補完する
E. テストデータの正解ラベルをトレーニングデータに混入させてモデルの精度を上げる

解答と解説を見る

正解: B, D

欠損値の補完は多くのアルゴリズムが欠損値を含むデータを処理できないため、前処理として必須のステップです（D）。数値特徴量のスケーリングは、スケールの異なる特徴量がある場合に勾配降下法の収束を速めたり、距離ベースのアルゴリズム（KNN、SVMなど）の性能を改善します（B）。テストデータのラベルをトレーニングに混入させることはデータリーク（Data Leakage）を引き起こし、モデル評価を無効にする深刻な誤りです（E）。サンプルをランダムに削除するとモデルの汎化性能が低下します（A）。目的変数を特徴量から除外しないことはターゲットリークを引き起こし、過剰に楽観的な評価となります（C）。

▸ この試験を本気で演習する（全150問・無料）

あるデータサイエンティストが機械学習プロジェクトのデータ前処理を行っています。モデルのトレーニング品質向上のために実施すべき前処理ステップを2つ選択してください。

同じ分野の関連問題