Question

ある企業が Amazon Bedrock の基盤モデルに対してベンチマーク評価を実施しようとしている。モデルを本番採用する前の評価として適切な方法を 2 つ選択してください。

Accepted Answer

実際の業務シナリオを反映したタスク固有のテストセット（ゴールデンセット）を用意し、自動指標（ROUGE/BLEU/F1 等）と人手評価スコアの両方で評価する

Accepted Answer

本番トラフィックの一部（例: 5%）を新モデルに流す A/B テストを実施し、ユーザー行動指標（タスク完了率・再質問率）でモデルを比較する

Answer

公開されているベンチマーク（例: MMLU, HumanEval 等）のスコアのみを参照し、最高スコアのモデルを採用する

Answer

モデルのパラメータ数が最大のものを選択し、品質評価は省略する

Answer

1 つのプロンプトでテストし、応答時間が最も速いモデルを採用する

ある企業が Amazon Bedrock の基盤モデルに対してベンチマーク評価を実施しようとしている。モデルを本番採用する前の評価として適切な方法を 2 つ選択してください。

同じ分野の関連問題