AIF-C01生成 AI の基礎MEDIUM単一選択

ある企業が、社内の技術文書(200 万トークン相当)を対象にした質問応答システムを構築している。コンテキストウィンドウが 200K トークンのモデルを利用しているが、コスト効率と応答速度の両立を求めている。最も適切な設計はどれか。

  1. A. すべての文書(200 万トークン)を毎回コンテキストウィンドウに詰め込み、全件参照させる
  2. B. 200 万トークンを超える文書には対応できないことをユーザーに伝え、文書を削減させる
  3. C. 質問に関連するチャンクのみをベクトル検索で抽出し、10〜20K トークン程度に絞ったコンテキストを LLM に渡す
  4. D. コンテキストウィンドウが大きいほどコストと速度に優れるため、常に最大トークン数を使い切る設定にする
解答と解説を見る

正解: C

ベクトル検索で関連チャンクに絞り込むことにより、毎回の LLM 呼び出しトークン数を最小化でき、コスト(トークン課金)と応答速度(入力トークン数に比例)を大幅に改善できる。Aは誤り:200 万トークンは 200K ウィンドウを 10 倍超えており物理的に不可能であり、仮に可能でも全件送信はコストが膨大になる。Dは誤り:入力トークン数が増えるほど課金額とレイテンシが増加するため、コンテキストを満杯にすることはコスト・速度の最悪化につながる。Bは誤り:技術的に解決可能な問題をユーザーに転嫁することはサービス設計として不適切。

▸ この試験を本気で演習する(全150問・無料)