ある教育テクノロジー企業が Amazon Bedrock を使って生徒の作文を自動採点するシステムを開発している。採点の一貫性を評価するためにベンチマークを実施したところ、ROUGE スコアは高いが教師の評価と乖離していることが判明した。この状況を最もよく説明するものはどれか。
- A. ROUGE は n-gram の表層的な一致を測るため、論理的一貫性・創造性・議論の質といった高次の品質を捉えられない場合がある
- B. BLEU スコアに切り替えれば教師の評価との乖離が解消される
- C. ROUGE スコアを上げるにはモデルの temperature を下げることが最も効果的
- D. ROUGE スコアが高い場合は必ず教師の評価とも一致するため、教師の評価方法に問題がある
解答と解説を見る
正解: A
ROUGE(特に ROUGE-1, ROUGE-2)は参照テキストとの n-gram(単語の並び)の重複率を測る指標であり、「参照テキストと同じ単語・フレーズを使っているか」を評価する。しかし作文評価で重要な「論理展開の一貫性」「独自性・創造性」「テーマへの適切な応答」「議論の深さ」といった高次の品質は n-gram の一致率だけでは測定できない。これが ROUGE 高スコアと教師評価の乖離をよく説明する。Dは誤りで ROUGE が高くても意味的品質が高いとは限らず、同じ単語を繰り返すだけで ROUGE を高くできてしまうことも知られている。Cの temperature と ROUGE スコアの関係は直接的ではない(temperature を下げると参照テキストに近い表現が出やすくはなるが、それが ROUGE 改善の「最も効果的」な方法ではない)。Bは BLEU も n-gram 精度ベースであり、高次の品質評価問題は同様に抱える。BLEU は翻訳評価向けで作文評価には ROUGE 同様の限界がある。