ある企業が Amazon Bedrock Knowledge Bases を設定してベクトルデータベースとして Amazon OpenSearch Serverless を選択した。ドキュメントを埋め込みベクトルとして格納する際に最も重要な概念として正しいものはどれか。
- A. ドキュメントをチャンク(断片)に分割し、各チャンクを埋め込みモデルで数値ベクトルに変換して格納することで、クエリとの意味的類似度検索を可能にする
- B. ドキュメントを圧縮してバイナリ形式で S3 に保存し、ハッシュ値で検索する
- C. ドキュメントを JSON 形式に変換し、DynamoDB テーブルのパーティションキーとして保存する
- D. ドキュメント全体をそのままテキスト形式でデータベースに格納し、キーワード検索で取得する
解答と解説を見る
正解: A
ベクトルデータベースの中核概念は「意味的埋め込みによる類似度検索」にある。テキストを埋め込みモデル(Embedding Model)で高次元の数値ベクトルに変換し、クエリベクトルと各ドキュメントチャンクのベクトル間のコサイン類似度等を計算することで、キーワードの完全一致ではなく意味・文脈に基づいた検索が実現される。チャンク分割は長文書を検索可能な単位に分割するために必要。Dのキーワード検索は従来型の全文検索であり、同義語や意味的に近い表現を検索できないため RAG には不適切。CのDynamoDB + JSON は NoSQL のユースケースであり、高次元ベクトル類似度検索には対応していない。Bのハッシュ値検索は完全一致検索にしか使えず、意味的な検索は不可能。