ある企業が、Google Cloudで「Site Reliability Engineering(SRE)」の原則に基づいてサービスを運用しようとしています。SREにおける「エラーバジェット(Error Budget)」の説明として最も正確なものはどれですか?
- A. エラーバジェットはGoogle CloudがSLAとして保証するダウンタイムの上限を指している
- B. エラーバジェットはSLO(サービスレベル目標)に基づいて算出される許容可能なサービス停止・エラーの残量であり、エラーバジェットが枯渇するとリリースを一時停止してサービス信頼性改善に注力するというトレードオフ管理の仕組みである
- C. エラーバジェットとはアプリケーションのバグ修正に割り当てられる開発工数の上限を指す
- D. エラーバジェットとはIAM設定ミスによるセキュリティインシデントの許容件数を指す
解答と解説を見る
正解: B
SREのエラーバジェットはSLO(例:月次可用性99.9%)から算出される。99.9%のSLOであれば月間約43分のダウンタイムが「許容可能な停止時間」(エラーバジェット)となる。このバジェットを消費していない間は積極的な新機能リリースが許容され、バジェットが枯渇(SLO違反)した場合は新機能リリースを停止して信頼性向上(バグ修正、インフラ強化)に集中する。これにより開発速度と信頼性のバランスを定量的に管理できる。開発工数の上限ではなく、Google保証のSLAとも異なり、セキュリティインシデント管理とも別の概念。