ある企業が、Amazon Bedrock 上のモデルを使った生成 AI 機能のコストを最適化したいと考えている。同一のシステムプロンプト(約 2000 トークン)を毎回送信しており、1 日あたり 10 万リクエストが発生している。最もコスト効率の高い最適化手法はどれか。
- A. システムプロンプトを毎回ユーザーメッセージの末尾に追加する形式に変更し、入力順序を最適化する
- B. モデルを毎月ファインチューニングして、システムプロンプトの内容を重みに焼き込み、実行時のプロンプト送信を不要にする
- C. Bedrock のプロンプトキャッシング(Prompt Caching)機能を利用し、システムプロンプトのトークンを初回計算後にキャッシュして再利用する
- D. リクエストをバッチ化して夜間にまとめて処理し、リアルタイム応答を廃止する
解答と解説を見る
正解: C
Amazon Bedrock はプロンプトキャッシング(Prompt Caching)をサポートしており、同一のプレフィックス(システムプロンプト等)を繰り返し送信する場合、キャッシュ済みトークンへの課金はキャッシュなし比で大幅に削減される。10 万リクエスト×2000 トークンのシステムプロンプトは、キャッシングで大きなコスト削減効果が得られる典型ケース。Aは誤り:プロンプトの追加位置を変えるだけでは課金されるトークン数は変わらず、コスト削減にならない。Bは誤り:毎月のファインチューニングはトレーニングコストが高く、またモデルの汎化性能を損なうリスクもある。Dは誤り:バッチ処理によるリアルタイム応答廃止はユーザー体験を著しく損ない、コスト削減の目的と品質のバランスを著しく壊す。
📚 関連サービスの解説: Amazon Bedrock