ある企業が、大規模なコーパス(100GB の PDF テキスト)を対象とした社内検索 RAG システムを Amazon Bedrock と OpenSearch Serverless で構築している。検索精度を最大化するための設計手法を2つ選択してください。
- A. すべてのチャンクをランダムに並び替えてインデックスに格納することで、検索の多様性を高める
- B. ドキュメントを固定長ではなくセマンティックチャンキング(意味的な区切りで分割)し、チャンクが文脈的に完結するようにする
- C. Embedding モデルを毎月替えながら同じベクトルストアを使い続け、最新モデルの恩恵を受ける
- D. ハイブリッド検索(ベクトル類似度検索+BM25 キーワード検索)を組み合わせて、意味的一致とキーワード一致の両方をカバーする
- E. チャンクサイズを 5 トークン以下に細分化して、検索候補の粒度を最大限に細かくする
解答と解説を見る
正解: B, D
セマンティックチャンキング(B)は文脈的に意味のある単位で分割するため、チャンクの前後で意味が途切れる問題を防ぎ検索精度が向上する。ハイブリッド検索(D)は純粋なベクトル検索ではカバーできない固有名詞・専門用語のキーワード一致を補完できる。Eは誤り:5 トークン以下の超細粒化チャンクは文脈を持たず、意味のある回答生成に必要なコンテキストが提供できなくなる。Aは誤り:チャンク順序はインデックス検索精度に影響しないが、コンテキストウィンドウに渡す際の文書順は意味論的に影響する。ランダム化は意味がなく保守性も低下する。Cは誤り:Embedding モデルを変えると既存のベクトルと新規ベクトルが異なる空間で生成されるため混在利用は不可。再インデックスが必須。