AI-900機械学習の基本原則MEDIUM単一選択

あるデータエンジニアが顧客離脱予測モデルを構築しようとしている。データセットには「顧客ID」「年齢」「契約期間」「月次利用料」「サポート問い合わせ回数」「離脱フラグ(0/1)」が含まれている。「顧客ID」を特徴量から除外すべき理由として最も適切なものはどれか。

  1. A. 顧客IDはサンプルを一意に識別する識別子であり、離脱という目的変数との統計的な相関を持たないため予測に役立たず、むしろ過学習の原因になりうる
  2. B. 顧客IDは必ず除外するというAzure Machine Learningの仕様がある
  3. C. 顧客IDは欠損値が多くデータ品質が低いため除外する必要がある
  4. D. 顧客IDは数値ではなくカテゴリ変数であるためモデルが処理できない
解答と解説を見る

正解: A

顧客IDは個々のレコードを識別するための管理用フィールドであり、「離脱するかどうか」という目的変数との因果的・統計的関係を持たない。もし含めると、モデルがIDのパターン(例:連番の範囲)に無意味に適合する過学習の原因になる。Dについては、カテゴリ変数でも one-hot encoding 等で扱えるため「処理できない」は誤り。Cの欠損値の多さは今回の説明として用意されていない仮定であり、除外の本質的な理由ではない。BのようなAzure MLの仕様は存在しない。特徴量の選択は統計的な意味と因果的な妥当性で行うことが基本原則である。

▸ この試験を本気で演習する(全150問・無料)