Question

ある企業が Amazon Bedrock を使ってコールセンターの問い合わせに対する自動回答システムを構築した。本番運用開始後に継続的にモデルの品質を監視・改善するサイクルを確立したい。最も適切な継続的評価・改善のアプローチはどれか。

Accepted Answer

ユーザーからのフィードバック（サムズアップ/ダウン等）を収集して低評価の会話サンプルを蓄積し、定期的に人手でレビューして問題パターンを特定。改善データをファインチューニングやプロンプト更新に反映するサイクルを確立する

Answer

ROUGE スコアを週次で自動計算し、スコアが下がった週だけプロンプトを変更する

Answer

本番稼働後は品質が固定されるため、定期的な評価は不要で問題報告があったときのみ対応する

Answer

Amazon CloudWatch のエラーレートのみを監視し、エラーゼロであれば品質は問題ないと判断する

同じ分野の関連問題