あるデータサイエンティストが機械学習モデルの特徴量エンジニアリングを行っている。「年齢:25歳」「収入:500万円」「利用月数:3ヶ月」という3つの特徴量のスケールが大きく異なる場合、正規化(スケーリング)を行う主な理由はどれか。
- A. 正規化はモデルの精度に影響せず、あくまで可視化の見やすさのために行う
- B. スケールの大きな特徴量が距離ベースのアルゴリズムや勾配降下法に不当に大きな影響を与えることを防ぎ、学習を安定させる
- C. 正規化することでデータ量が増加し、学習に使えるサンプル数が増える
- D. 正規化するとカテゴリ変数を数値に変換できるため、テキストデータも扱えるようになる
解答と解説を見る
正解: B
特徴量のスケールが大きく異なる場合、距離ベースの手法(k-NN・SVMなど)では収入(500万)が他の特徴量を支配し、勾配降下法ベースの手法では収束速度が遅くなったり最適解に到達できないことがある。正規化(min-max スケーリングや標準化)によりすべての特徴量を同等のスケールにそろえることで、これらの問題を防ぎ学習を安定させる。Cの「データ量が増加する」は誤りで、正規化はサンプル数ではなく値のスケールを変換する処理。Dの「カテゴリ変数を数値変換する」はエンコーディング(one-hot等)の役割であり、正規化とは別の処理。Aの「精度に影響しない」は誤りで、スケール依存アルゴリズムでは正規化の有無が精度に大きく影響する。