AIF-C01基盤モデルの応用EASY単一選択

ある企業が顧客向けチャットボットに Amazon Bedrock の基盤モデルを採用する際、モデルの出力品質を人手で評価する計画を立てている。人手評価（Human Evaluation）の特徴として正しいものはどれか。

A. 自動評価指標（ROUGE や BLEU）と比べてコストが低く、大規模評価に向いている
B. 自動評価では捉えにくい主観的な品質（自然さ・適切さ・有用性）を評価できるが、コストと時間が大きくかかる
C. 人手評価は一度実施すれば自動化できるため、継続的評価コストはゼロになる
D. 人手評価は統計的バイアスがゼロで客観的な品質指標として最も信頼性が高い

解答と解説を見る

正解: B

人手評価（Human Evaluation）の最大の強みは、自動指標では測定困難な「文章の自然さ」「回答の有用性」「文化的適切さ」「感情的トーン」などの主観的・複合的な品質を評価できること。ただし評価者の採用・教育・評価時間のコストが大きいという明確なトレードオフがある。Aは逆で、人手評価は自動評価より高コストで、大規模評価には向かない。自動評価指標のほうが大規模・低コスト評価に向いている。Dは人手評価者自身の主観的バイアスが混入するため「バイアスゼロ」は誤り。評価者間一致率（Inter-Annotator Agreement）の管理が重要な理由はここにある。Cは人手評価はその性質上、継続的に人的リソースが必要であり「コストゼロで自動化」できるものではない。

▸ この試験を本気で演習する（全150問・無料）

ある企業が顧客向けチャットボットに Amazon Bedrock の基盤モデルを採用する際、モデルの出力品質を人手で評価する計画を立てている。人手評価（Human Evaluation）の特徴として正しいものはどれか。

同じ分野の関連問題