ある保険会社が事故報告書(非構造化テキスト)を処理し、①事故発生日時、③関係者の氏名、②損害を受けた物品・車両の種類を自動抽出してデータベースに格納したい。キーフレーズ抽出・固有表現認識(NER)・感情分析のうち、このユースケースに最も適した機能の組み合わせはどれか。
- A. 感情分析+キーフレーズ抽出:事故報告書の否定的な内容を特定し、主要フレーズを抽出する
- B. キーフレーズ抽出+感情分析:重要語句と感情スコアを組み合わせて損害の深刻度を推定する
- C. 固有表現認識(NER)のみ:日時・人名・物品カテゴリなどのエンティティを構造化データとして抽出する
- D. 言語検出+固有表現認識:報告書の言語を特定してから NER でエンティティを抽出する
解答と解説を見る
正解: C
固有表現認識(NER)は「DateTime(日時)」「Person(人名)」「Product/Vehicle(物品・車両)」などを事前定義カテゴリとして抽出するため、事故報告書から必要な3種類のデータすべてをカテゴリ分類された構造化データとして取得できる。データベース格納の自動化に直接対応する。選択肢Aの感情分析は事故報告書の感情スコアを測定できるが、日時・氏名・物品の抽出は行わない。選択肢Bのキーフレーズ抽出は重要語句を返すが、カテゴリ分類せず非構造化のまま返すためデータベース格納には追加処理が必要になる。選択肢Dの言語検出は言語が単一の場合は不要であり、NER だけで要件を満たせる。