ある企業が、過去10年の採用データを使って人材推薦モデルを学習しました。社内の過去の採用傾向がデータに反映されており、特定の大学出身者への偏りが疑われます。この「履歴的バイアス(Historical Bias)」に対処するために、学習前の前処理段階で最も適切なアプローチはどれですか?
- A. 再重み付け(Reweighting)または再サンプリングによって、過小代表グループのサンプルの学習への影響を増やし、データセットの偏りを補正する
- B. バイアスの原因となった過去データを完全に削除し、直近2年分のみで再学習する
- C. 学習データの量を2倍に増やして統計的な安定性を高める
- D. 保護属性(出身大学の系列など)を学習特徴量から除外することで(Fairness through unawareness)、モデルが属性を直接参照できないようにする
解答と解説を見る
正解: A
履歴的バイアスへの前処理アプローチとして、再重み付け(Reweighting)はサンプルの損失に高い重みを付けることで、過小代表グループが学習に与える影響を増やしてデータの偏りを補正します。再サンプリング(オーバーサンプリング/アンダーサンプリング)も同様の効果を持ちます。SageMaker Clarify のバイアス軽減機能でも使用されるアプローチです。Bの直近データのみへの限定はデータ量不足・時系列バイアスなど別の問題を引き起こす可能性があります。Dの「属性の除外(Fairness through unawareness)」は相関特徴量経由でバイアスが間接的に再現される(プロキシ変数問題)ため、一般に不十分とされています。Cのデータ量増加はバイアスの方向性を変えず、既存の偏りを統計的に強化する可能性すらあります。