Question

ある企業が Amazon Bedrock で Claude モデルを使って長文の法的契約書を分析するシステムを本番運用している。本番環境でのモデル切り替えを検討する際に、新しいモデルが同等以上の品質を持つことを確認するための評価アプローチとして最も堅牢なものはどれか。

Accepted Answer

社内の法律専門家が作成した「ゴールデンセット（正解付き契約書サンプル）」で両モデルを評価し、ROUGE スコアと人手評価スコアの両方で比較する

Answer

新モデルのパラメータ数（モデルサイズ）が旧モデル以上であれば品質も上位と判断してよい

Answer

新モデルに対して同じプロンプトセットを 10 回ずつ実行し、temperature=0 のときの出力の一貫性を確認する

Answer

新モデルをファインチューニングした後、本番トラフィックにいきなり投入してユーザーのフィードバックで品質を判断する

同じ分野の関連問題