ある企業が、ユーザーのチャット入力をリアルタイムでストリーミング表示する生成 AI チャットボットを設計している。レスポンスの Time-to-First-Token(TTFT)が重要な UX 指標である。TTFT を改善するための最も適切な戦略はどれか。
- A. max_tokens を大きな値(例:4096)に設定し、モデルが生成できるトークン数を増やす
- B. モデルをより大きなパラメータ数のものに変更し、1回の推論で全文を生成させる
- C. temperature を 0 に設定することで、モデルの計算量を削減して TTFT を短縮する
- D. プロンプトの前処理(エンベディング検索・コンテキスト構築)を非同期で並列実行し、入力トークン数を絞り込んでモデルへの送信を早める
解答と解説を見る
正解: D
TTFT は最初のトークンが返るまでの時間であり、主に入力トークン数の処理時間とネットワークレイテンシに依存する。前処理の並列化とコンテキスト長の最小化(関連チャンクのみに絞る)が直接的な改善策。Aは誤り:max_tokens は出力の最大長を制御するパラメータであり、TTFT(最初のトークンが返るまでの時間)には影響しない。Cは誤り:temperature はトークン選択の確率計算に影響するが、モデルの計算量削減効果はごく軽微であり TTFT 改善策として有効ではない。Bは誤り:大規模モデルは一般に1トークンあたりの処理時間が長くなるため、TTFT はむしろ悪化する傾向にある。