AIF-C01基盤モデルの応用HARD単一選択

ある企業が Amazon Bedrock で Claude モデルを使って長文の法的契約書を分析するシステムを本番運用している。本番環境でのモデル切り替えを検討する際に、新しいモデルが同等以上の品質を持つことを確認するための評価アプローチとして最も堅牢なものはどれか。

  1. A. 新モデルのパラメータ数(モデルサイズ)が旧モデル以上であれば品質も上位と判断してよい
  2. B. 社内の法律専門家が作成した「ゴールデンセット(正解付き契約書サンプル)」で両モデルを評価し、ROUGE スコアと人手評価スコアの両方で比較する
  3. C. 新モデルに対して同じプロンプトセットを 10 回ずつ実行し、temperature=0 のときの出力の一貫性を確認する
  4. D. 新モデルをファインチューニングした後、本番トラフィックにいきなり投入してユーザーのフィードバックで品質を判断する
解答と解説を見る

正解: B

モデル評価は「自動評価指標(ROUGE等)」と「人手評価」を組み合わせたゴールデンセット評価が最も信頼性が高い。ゴールデンセットとは正解ラベルが付いた代表的なテストケース集のことで、ドメイン専門家(本問では法律専門家)が作成することで業務上の品質基準を正確に反映できる。これにより新旧モデルを同条件で定量・定性的に比較できる。Cの一貫性確認は再現性の評価には有効だが、法的分析の「正しさ」を測る指標にはならない。Dの本番即時投入はリスクが高く、品質問題が発生した場合の影響が大きい。適切な評価なしに本番切り替えは不適切。Aのパラメータ数はモデル能力の粗い指標にはなるが、特定タスク(法的契約書分析)での品質を保証するものではない。蒸留等により小型モデルが大型モデルを特定タスクで上回るケースも多い。

▸ この試験を本気で演習する(全150問・無料)