AIF-C01責任ある AI に関するガイドラインMEDIUM単一選択

ある企業が、過去10年の採用データを使って人材推薦モデルを学習しました。社内の過去の採用傾向がデータに反映されており、特定の大学出身者への偏りが疑われます。この「履歴的バイアス(Historical Bias)」に対処するために、学習前の前処理段階で最も適切なアプローチはどれですか?

  1. A. 再重み付け(Reweighting)または再サンプリングによって、過小代表グループのサンプルの学習への影響を増やし、データセットの偏りを補正する
  2. B. バイアスの原因となった過去データを完全に削除し、直近2年分のみで再学習する
  3. C. 学習データの量を2倍に増やして統計的な安定性を高める
  4. D. 保護属性(出身大学の系列など)を学習特徴量から除外することで(Fairness through unawareness)、モデルが属性を直接参照できないようにする
解答と解説を見る

正解: A

履歴的バイアスへの前処理アプローチとして、再重み付け(Reweighting)はサンプルの損失に高い重みを付けることで、過小代表グループが学習に与える影響を増やしてデータの偏りを補正します。再サンプリング(オーバーサンプリング/アンダーサンプリング)も同様の効果を持ちます。SageMaker Clarify のバイアス軽減機能でも使用されるアプローチです。Bの直近データのみへの限定はデータ量不足・時系列バイアスなど別の問題を引き起こす可能性があります。Dの「属性の除外(Fairness through unawareness)」は相関特徴量経由でバイアスが間接的に再現される(プロキシ変数問題)ため、一般に不十分とされています。Cのデータ量増加はバイアスの方向性を変えず、既存の偏りを統計的に強化する可能性すらあります。

▸ この試験を本気で演習する(全150問・無料)