DVA-C02トラブルシューティングと最適化HARD単一選択

あるチームがCloudWatchアラームを設定したが、アラームが誤検知を頻繁に起こしている。Lambda関数のエラー率が1%を超えたらアラームを上げる設定にしているが、1分間に1リクエストしか来ないような深夜時間帯に1回エラーが出ると100%エラー率と判定されてアラームが鳴る。実際に問題が発生したときだけアラームを鳴らしたい。最も適切な対応はどれか。

  1. A. 深夜時間帯はCloudWatchアラームを無効化するEventBridgeスケジュールを設定する
  2. B. アラームのしきい値を1%から50%に上げる
  3. C. アラームにM-of-N評価を使って「5分中3分でエラー率1%超」のような条件を設定し、かつAnomalyDetectionベースのアラームでトラフィック量が少ない時間帯の動的なしきい値調整を行う
  4. D. アラームの評価期間(評価期間の連続数)を増やして複数期間連続でしきい値超過の場合のみアラームにする
解答と解説を見る

正解: C

低トラフィック時の誤検知は単純なしきい値設定の限界を示す。M-of-N評価(選択肢C)を使うことで「直近5回の評価のうち3回以上でしきい値超過した場合のみアラーム」のような条件を設定でき、散発的な1回のエラーによる誤検知を減らせる。さらにCloudWatch Anomaly Detectionは機械学習でメトリクスのベースラインを学習し、時間帯・曜日による通常の変動を加味した動的なバンドをしきい値として使える。低トラフィック時間帯はバンドが広くなり誤検知が減る。選択肢Bのしきい値引き上げは実際の問題も見逃す可能性がある。選択肢Dの評価期間延長は改善効果があるが、M-of-N評価と比べると柔軟性が低い(連続評価を要求するため間欠的な問題を検出しにくい)。選択肢Aのアラーム無効化は深夜の本物の障害も検知できなくなる。M-of-N評価とAnomaly Detectionの組み合わせが最も洗練された解決策。

▸ この試験を本気で演習する(全150問・無料)