Question

ある教育テクノロジー企業が Amazon Bedrock を使って生徒の作文を自動採点するシステムを開発している。採点の一貫性を評価するためにベンチマークを実施したところ、ROUGE スコアは高いが教師の評価と乖離していることが判明した。この状況を最もよく説明するものはどれか。

Accepted Answer

ROUGE は n-gram の表層的な一致を測るため、論理的一貫性・創造性・議論の質といった高次の品質を捉えられない場合がある

Answer

BLEU スコアに切り替えれば教師の評価との乖離が解消される

Answer

ROUGE スコアを上げるにはモデルの temperature を下げることが最も効果的

Answer

ROUGE スコアが高い場合は必ず教師の評価とも一致するため、教師の評価方法に問題がある

同じ分野の関連問題