ある企業が Amazon Bedrock を使って顧客向けのチャットボットを構築している。悪意あるユーザーが「これまでの指示を無視して...」のようなテキストを入力してモデルの挙動を操作しようとする攻撃への対策として最も適切なものはどれか。
- A. チャットボットのエンドポイントを VPC 内に閉じてインターネットアクセスをなくす
- B. モデルのトレーニングデータから悪意あるサンプルをすべて削除する
- C. システムプロンプトで役割とルールを明確に定義し、Bedrock Guardrails でコンテンツフィルタリングと入力検証を設定する
- D. レスポンスの最大トークン数を制限してモデルが長い回答を生成できないようにする
解答と解説を見る
正解: C
「これまでの指示を無視して」のような攻撃はプロンプトインジェクションと呼ばれ、LLM 固有の脅威。対策として、システムプロンプトでモデルの役割と禁止事項を明確に定義し、Bedrock Guardrails の入力フィルター・コンテンツポリシーで悪意ある入力パターンを遮断するのが最も効果的。Bのトレーニングデータ削除は既デプロイモデルには効果がなく根本対策にならない。Dのトークン制限はプロンプトインジェクションを防がない。Aのネットワーク隔離はユーザーアクセスへの影響が大きく、かつ入力内容の制御にはならない。
📚 関連サービスの解説: Amazon Bedrock