AIF-C01基盤モデルの応用MEDIUM単一選択

ある研究機関が Amazon Bedrock の基盤モデルを使って科学論文の要約を生成するシステムを構築した。品質評価にあたり、人手による評価を補完する自動評価指標を導入したい。要約タスクに最も適した自動評価指標はどれか。

  1. A. ROUGE スコア(Recall-Oriented Understudy for Gisting Evaluation)
  2. B. 混乱度(Perplexity)
  3. C. BLEU スコア(Bilingual Evaluation Understudy)
  4. D. 精度(Accuracy)と再現率(Recall)の F1 スコア
解答と解説を見る

正解: A

ROUGE は要約タスクの自動評価に最も広く使われる指標で、生成要約と参照要約(人手で作成した正解要約)の n-gram の重複(特に再現率)を測定する。ROUGE-1(ユニグラム)、ROUGE-2(バイグラム)、ROUGE-L(最長共通部分列)などの変種があり、要約の網羅性と流暢さを評価できる。Cの BLEU は機械翻訳の評価指標として開発されたもので精度(Precision)ベースであり、要約では重要情報の網羅率(再現率)がより重要なため ROUGE のほうが適切。DのF1スコアは分類タスクや情報抽出タスクの評価に使う指標で、自由記述形式の要約評価には向かない。Bのパープレキシティは言語モデル自体の性能を測る指標であり、特定の要約品質を測る指標ではない。

▸ この試験を本気で演習する(全150問・無料)