Question

ある企業が、社内の技術文書（200 万トークン相当）を対象にした質問応答システムを構築している。コンテキストウィンドウが 200K トークンのモデルを利用しているが、コスト効率と応答速度の両立を求めている。最も適切な設計はどれか。

Accepted Answer

質問に関連するチャンクのみをベクトル検索で抽出し、10〜20K トークン程度に絞ったコンテキストを LLM に渡す

Answer

すべての文書（200 万トークン）を毎回コンテキストウィンドウに詰め込み、全件参照させる

Answer

200 万トークンを超える文書には対応できないことをユーザーに伝え、文書を削減させる

Answer

コンテキストウィンドウが大きいほどコストと速度に優れるため、常に最大トークン数を使い切る設定にする

同じ分野の関連問題