ある医療機関が患者データを含む大量の非構造化テキストを S3 に保存している。HIPAA 対応のためにこれらのドキュメントから個人識別情報(PII)を自動検出し、重要なものだけを報告したい。最も運用負荷が低いアプローチはどれか。
- A. Amazon Comprehend の PII 検出 API を呼び出すバッチ処理を EC2 上で手動スケジュールする
- B. S3 のオブジェクトメタデータを手動でタグ付けして PII の有無を管理する
- C. AWS Lambda でカスタムの正規表現スクリプトを書き、S3 オブジェクトを逐次スキャンする
- D. Amazon Macie を有効化して S3 バケットを継続的にスキャンし、PII を含むオブジェクトを自動検出させる
解答と解説を見る
正解: D
Amazon Macie はS3 バケットを対象とした完全マネージドの PII 自動検出サービスで、有効化するだけで継続的スキャンが開始され、発見結果を Security Hub やEventBridge で受け取れる。運用負荷が最も低い。CのLambdaカスタムスクリプトは開発・保守コストが高く精度も不安定。AのAmazon Comprehend PII 検出は高精度だが、EC2 上でのバッチ処理は自動化・スケーリングの管理が必要で運用負荷が増す。Bの手動タグ付けは人的ミスが生じやすくスケールしない。
📚 関連サービスの解説: Amazon Macie ・ Amazon S3