AIF-C01基盤モデルの応用HARD単一選択

ある企業が Amazon Bedrock を使ってコールセンターの問い合わせに対する自動回答システムを構築した。本番運用開始後に継続的にモデルの品質を監視・改善するサイクルを確立したい。最も適切な継続的評価・改善のアプローチはどれか。

  1. A. ROUGE スコアを週次で自動計算し、スコアが下がった週だけプロンプトを変更する
  2. B. 本番稼働後は品質が固定されるため、定期的な評価は不要で問題報告があったときのみ対応する
  3. C. Amazon CloudWatch のエラーレートのみを監視し、エラーゼロであれば品質は問題ないと判断する
  4. D. ユーザーからのフィードバック(サムズアップ/ダウン等)を収集して低評価の会話サンプルを蓄積し、定期的に人手でレビューして問題パターンを特定。改善データをファインチューニングやプロンプト更新に反映するサイクルを確立する
解答と解説を見る

正解: D

継続的なモデル品質管理(MLOps における Model Monitoring)のベストプラクティスは「ユーザーフィードバック収集→分析→改善→デプロイ」のフィードバックループを構築すること。特に LLM では技術的なエラーがなくても「内容の誤り」「有用でない回答」が発生するため、ユーザーの主観的評価(サムズアップ/ダウン、評価コメント)を収集することが重要。低評価の実例を人手でレビューして根本原因を特定し、プロンプト改善・追加ファインチューニング等に反映するループが品質維持の核心。Bは問題発生後の対応では手遅れになるケースが多く、品質劣化を早期に発見するための継続的監視が必要。Aの ROUGE は参照テキストが必要な指標であり、本番の顧客問い合わせへの回答評価には直接使えない。また ROUGE だけで品質を評価するのは不十分。Cのエラーレート(技術的な API エラー)はシステムの可用性を測るものであり、回答の「品質(内容の正確さ・有用性)」とは別次元の指標。

▸ この試験を本気で演習する(全150問・無料)