ある企業が S3 に蓄積された顧客の注文履歴テキストに、氏名・メールアドレス・クレジットカード番号などの PII が含まれているか確認したい。コードを最小限にして PII の種類ごとに検出・分類する場合、最も適切なアプローチはどれか。
- A. AWS Glue DataBrew でデータプロファイリングを実行する
- B. Amazon Comprehend の PII エンティティ検出機能を使って、テキスト中の PII を種類ごとに識別する
- C. Amazon Rekognition で S3 オブジェクトを解析する
- D. Amazon Textract で S3 内のドキュメントを OCR してテキストを抽出するだけで十分
解答と解説を見る
正解: B
Amazon Comprehend は NLP(自然言語処理)サービスで、PII エンティティ検出 API により氏名・住所・電話番号・クレジットカード番号・メールアドレスなど 100 種類以上の PII を自動識別・分類できる。コード量が少なくすぐ利用可能。CのAmazon Rekognitionは画像・動画解析サービスでテキスト内の PII 検出には対応しない。AのAWS Glue DataBrewはデータ前処理ツールで PII 検出専用機能はない(プロファイリングで一部検出可能だが精度・種類の対応が限定的)。DのTextractはOCRであり、PII を種類ごとに分類する機能は持たない。
📚 関連サービスの解説: Amazon Comprehend