ある企業が Amazon Bedrock を使って生成した広告コピーを大規模に評価したい。人手評価は品質が高いが 1 万件のサンプルを評価するには時間とコストがかかりすぎる。自動評価と人手評価を組み合わせた最も現実的な評価戦略はどれか。
- A. BLEU スコアのみで 1 万件を評価し、業界標準値(0.4 以上)を品質基準とする
- B. 1 万件すべてを ROUGE スコアで自動評価し、スコアが低い下位 10% だけを人手評価する
- C. 人手評価を外注して 1 万件全件をクラウドソーシングで評価する
- D. 1 万件から統計的にサンプリングした代表的なサブセット(例: 200〜500 件)を人手評価でゴールドラベル化し、そのサブセットで LLM-as-a-Judge(評価モデル)を校正する。残りは LLM-as-a-Judge で自動評価する
解答と解説を見る
正解: D
大規模評価の現代的なベストプラクティスは「LLM-as-a-Judge(評価モデルとしての LLM 活用)」と「人手評価のハイブリッド」。少数(数百件)の人手評価でゴールドラベルを作成し、それを使って LLM-as-a-Judge の評価指示(ルーブリック)を校正することで、大規模な自動評価の品質を担保する。人手評価のコスト効率と自動評価のスケーラビリティを両立できる。Bの ROUGE による下位フィルタリングは、ROUGE が広告コピーの「魅力・説得力・ブランド整合性」を正確に測れないため、誤ったフィルタリングが発生する。低 ROUGE が必ずしも低品質を意味しない。Aの BLEU は機械翻訳向け指標で広告コピーの「创造性・説得力」の評価に適さない。業界標準値 0.4 というのも広告コピー評価文脈では意味をなさない。Cのクラウドソーシング全件評価は予算・時間の制約に反しており、評価一貫性の管理も困難。