AIF-C01基盤モデルの応用HARD複数選択

ある企業が Amazon Bedrock の基盤モデルに対してベンチマーク評価を実施しようとしている。モデルを本番採用する前の評価として適切な方法を 2 つ選択してください。

  1. A. 実際の業務シナリオを反映したタスク固有のテストセット(ゴールデンセット)を用意し、自動指標(ROUGE/BLEU/F1 等)と人手評価スコアの両方で評価する
  2. B. 公開されているベンチマーク(例: MMLU, HumanEval 等)のスコアのみを参照し、最高スコアのモデルを採用する
  3. C. 本番トラフィックの一部(例: 5%)を新モデルに流す A/B テストを実施し、ユーザー行動指標(タスク完了率・再質問率)でモデルを比較する
  4. D. モデルのパラメータ数が最大のものを選択し、品質評価は省略する
  5. E. 1 つのプロンプトでテストし、応答時間が最も速いモデルを採用する
解答と解説を見る

正解: A, C

本番採用前のモデル評価には「オフライン評価」と「オンライン評価」を組み合わせるのがベストプラクティス。Aのゴールデンセット評価はオフライン評価の代表例。実際の業務シナリオを反映したテストケースで複数の評価軸(自動指標+人手評価)を使うことで、タスク固有の品質を本番稼働前に定量的に確認できる。Cの A/B テストはオンライン評価の代表例。制限されたトラフィックで実際のユーザー行動データを使ってモデルを比較することで、ラボでは検出しにくい実環境での品質差を検出できる。Bの公開ベンチマークは一般的な能力評価には有用だが、企業固有のドメインやタスクでの性能を保証するものではない。最高スコアのモデルが自社タスクでも最高とは限らない。Dのパラメータ数による品質保証は誤り(蒸留モデル等の例外が多い)。Eの単一プロンプト・速度のみの評価は品質評価として著しく不十分。

▸ この試験を本気で演習する(全150問・無料)