Question

ある企業が Amazon Bedrock を使って生成した広告コピーを大規模に評価したい。人手評価は品質が高いが 1 万件のサンプルを評価するには時間とコストがかかりすぎる。自動評価と人手評価を組み合わせた最も現実的な評価戦略はどれか。

Accepted Answer

1 万件から統計的にサンプリングした代表的なサブセット（例: 200〜500 件）を人手評価でゴールドラベル化し、そのサブセットで LLM-as-a-Judge（評価モデル）を校正する。残りは LLM-as-a-Judge で自動評価する

Answer

BLEU スコアのみで 1 万件を評価し、業界標準値（0.4 以上）を品質基準とする

Answer

1 万件すべてを ROUGE スコアで自動評価し、スコアが低い下位 10% だけを人手評価する

Answer

人手評価を外注して 1 万件全件をクラウドソーシングで評価する

同じ分野の関連問題