ある企業が、社内の技術文書(200 万トークン相当)を対象にした質問応答システムを構築している。コンテキストウィンドウが 200K トークンのモデルを利用しているが、コスト効率と応答速度の両立を求めている。最も適切な設計はどれか。
- A. すべての文書(200 万トークン)を毎回コンテキストウィンドウに詰め込み、全件参照させる
- B. 200 万トークンを超える文書には対応できないことをユーザーに伝え、文書を削減させる
- C. 質問に関連するチャンクのみをベクトル検索で抽出し、10〜20K トークン程度に絞ったコンテキストを LLM に渡す
- D. コンテキストウィンドウが大きいほどコストと速度に優れるため、常に最大トークン数を使い切る設定にする
解答と解説を見る
正解: C
ベクトル検索で関連チャンクに絞り込むことにより、毎回の LLM 呼び出しトークン数を最小化でき、コスト(トークン課金)と応答速度(入力トークン数に比例)を大幅に改善できる。Aは誤り:200 万トークンは 200K ウィンドウを 10 倍超えており物理的に不可能であり、仮に可能でも全件送信はコストが膨大になる。Dは誤り:入力トークン数が増えるほど課金額とレイテンシが増加するため、コンテキストを満杯にすることはコスト・速度の最悪化につながる。Bは誤り:技術的に解決可能な問題をユーザーに転嫁することはサービス設計として不適切。