ある企業が、機密性の高い個人情報(PII)を含む顧客データをMLの学習に使いたいと考えています。プライバシーを保護しながら分析・MLに活用するために、Google CloudのCloud Data Loss Prevention(DLP)を使った最も適切なアプローチはどれですか?
- A. Cloud DLPを使ってPIIデータ(名前、電話番号、クレジットカード番号等)を自動検出し、マスキング(代替文字への置換)や匿名化(擬似化・一般化)を施した後のデータをML学習に使用することで、プライバシーリスクを低減しながらデータの有用性を維持できる
- B. 個人情報を含むデータはGoogleが自動的に削除するため、ユーザー側での対応は不要である
- C. 個人情報を含むデータは法律によりMLに利用することが完全に禁止されているため、このプロジェクトは実施不可能である
- D. すべての個人情報をCloud Storageに移動して暗号化するだけで、MLに安全に使用できる
解答と解説を見る
正解: A
Cloud DLP(Data Loss Prevention)は150以上の情報タイプ(名前、メール、電話番号、SSN、クレジットカード番号等)を自動検出し、マスキング(例:[PERSON_NAME]への置換)、擬似化(決定論的暗号化でk-匿名性達成)、一般化(年齢範囲への変換等)のトランスフォームを適用できる。処理後のデータをML学習に使用することでプライバシーリスクを低減しつつデータの統計的有用性を維持できる。適切な同意と匿名化でML利用は可能。暗号化のみではMLで使用できない。Googleが個人情報を自動削除することはない。