Question

ある企業が、ユーザーのチャット入力をリアルタイムでストリーミング表示する生成 AI チャットボットを設計している。レスポンスの Time-to-First-Token（TTFT）が重要な UX 指標である。TTFT を改善するための最も適切な戦略はどれか。

Accepted Answer

プロンプトの前処理（エンベディング検索・コンテキスト構築）を非同期で並列実行し、入力トークン数を絞り込んでモデルへの送信を早める

Answer

max_tokens を大きな値（例：4096）に設定し、モデルが生成できるトークン数を増やす

Answer

モデルをより大きなパラメータ数のものに変更し、1回の推論で全文を生成させる

Answer

temperature を 0 に設定することで、モデルの計算量を削減して TTFT を短縮する

同じ分野の関連問題