AIF-C01生成 AI の基礎MEDIUM単一選択

ある企業が、ユーザーのチャット入力をリアルタイムでストリーミング表示する生成 AI チャットボットを設計している。レスポンスの Time-to-First-Token(TTFT)が重要な UX 指標である。TTFT を改善するための最も適切な戦略はどれか。

  1. A. max_tokens を大きな値(例:4096)に設定し、モデルが生成できるトークン数を増やす
  2. B. モデルをより大きなパラメータ数のものに変更し、1回の推論で全文を生成させる
  3. C. temperature を 0 に設定することで、モデルの計算量を削減して TTFT を短縮する
  4. D. プロンプトの前処理(エンベディング検索・コンテキスト構築)を非同期で並列実行し、入力トークン数を絞り込んでモデルへの送信を早める
解答と解説を見る

正解: D

TTFT は最初のトークンが返るまでの時間であり、主に入力トークン数の処理時間とネットワークレイテンシに依存する。前処理の並列化とコンテキスト長の最小化(関連チャンクのみに絞る)が直接的な改善策。Aは誤り:max_tokens は出力の最大長を制御するパラメータであり、TTFT(最初のトークンが返るまでの時間)には影響しない。Cは誤り:temperature はトークン選択の確率計算に影響するが、モデルの計算量削減効果はごく軽微であり TTFT 改善策として有効ではない。Bは誤り:大規模モデルは一般に1トークンあたりの処理時間が長くなるため、TTFT はむしろ悪化する傾向にある。

▸ この試験を本気で演習する(全150問・無料)