ある企業が、Amazon Bedrock 上で本番運用中の生成 AI アプリケーションのコストを削減したいと考えている。出力品質を維持しながらコストを最適化するための手法を2つ選択してください。
- A. 高トラフィック時間帯のリクエストをキューに積み、低トラフィック時間帯にまとめて処理することでレイテンシを無視してコストを下げる
- B. 用途に応じてモデルを使い分け、シンプルな分類タスクには小型・低コストモデル、複雑な推論が必要なタスクにのみ大型モデルを使う
- C. コスト削減のため、Bedrock Guardrails を無効化してトークン処理のオーバーヘッドをゼロにする
- D. プロンプトの冗長な表現を削除し、必要最小限のコンテキストに絞ることで入力トークン数を削減する
- E. すべてのリクエストに対して max_tokens を最大値(例:4096)に設定し、常に長い回答を生成させる
解答と解説を見る
正解: B, D
モデルの使い分け(B)とトークン削減(D)は、品質を維持しながらコストを下げる最も直接的な手法。Eは誤り:max_tokens を最大値にすると出力が長くなり出力トークン費用が増加する。出力長は必要最小限に制限すべき。Cは誤り:Guardrails の無効化はセキュリティリスクを生み出し、本番環境では許容できない。Aは誤り:リアルタイム応答が必要なアプリケーションでキューによる遅延処理は UX を破壊する。また非同期バッチ処理は必ずしも単価削減にはならず、Bedrock Batch Inference 等を利用する場合の検討が必要。