AIF-C01生成 AI の基礎MEDIUM単一選択

ある企業の ML エンジニアが、テキスト埋め込み(Text Embedding)を用いたセマンティック検索システムを構築しようとしている。テキスト埋め込みの特性として正しいものはどれか。

  1. A. 埋め込み次元数が大きいほど必ず検索精度が向上し、次元数の選択に精度トレードオフはない
  2. B. テキスト埋め込みはテキストの文字列を単純に数値化したものであり、意味の類似性は反映されない
  3. C. 意味的に類似したテキストは埋め込み空間上で距離が近くなるため、キーワード一致しなくても関連ドキュメントを発見できる
  4. D. 埋め込みベクトルはモデルに依存しない絶対的な表現であり、どのモデルで生成しても互換性がある
解答と解説を見る

正解: C

テキスト埋め込みは、Transformer が学習した意味空間を高次元ベクトルで表現したものであり、「犬」と「イヌ」、「laptop」と「notebook PC」のように意味が近い語句は余弦類似度が高くなる。これによりキーワード一致を超えた意味検索(セマンティック検索)が実現できる。Dは誤り:埋め込みはモデル固有の空間であり、異なるモデルのベクトルは互換性がなく混在利用はできない。Aは誤り:次元数が大きすぎると計算コストが増加し、性能向上は収穫逓減になるため次元の選択にはトレードオフがある。Bは誤り:単純な文字コード化は意味を反映しない(それは文字列エンコーディング)。埋め込みはモデルが学習した意味的関係を反映する。

▸ この試験を本気で演習する(全150問・無料)