ある企業が Amazon Bedrock でマルチモーダルモデル(テキスト+画像入力)を利用して、商品画像から自動的に詳細説明文を生成するシステムを構築した。出力の品質を評価するための最も適切な指標の組み合わせはどれか。
- A. 人間評価者による関連性スコアと BLEU/ROUGE スコアを組み合わせて、自動評価と人間評価の両方を実施する
- B. モデルの API 呼び出しコストのみを測定し、コストが低いモデルを高品質と見なす
- C. 出力テキストの文字数のみを品質指標とし、長文であるほど高品質と判断する
- D. 生成速度(スループット)のみを測定し、速ければ速いほど品質が高いと判断する
解答と解説を見る
正解: A
生成テキストの品質評価には、BLEU(参照文との n-gram 一致率)・ROUGE(召還率ベース)などの自動指標と、人間評価者による関連性・正確性・流暢性の主観評価を組み合わせることが、業界標準の評価手法である。Dは誤り:スループットはシステム性能指標であり、テキストの意味的品質(関連性・正確性)を測らない。Bは誤り:コストはビジネス制約であり、安価なモデルが必ずしも高品質な出力を生成するとは言えない。Cは誤り:長文であることは冗長性や内容の繰り返しを意味する場合もあり、文字数と品質は相関しない。