Question

ある企業が Amazon ECS on Fargate でマイクロサービスを運用しており、本番デプロイ後に特定のサービスでメモリリークが発生することが判明しています。デプロイ後 24 時間経過するとメモリ使用率が徐々に増加し、48 時間後に OOM（メモリ不足）でコンテナがクラッシュします。このパターンを事前に検知して、クラッシュが発生する前に自動的にコンテナを再起動する仕組みを構築したいと考えています。最も適切な実装はどれですか？

Accepted Answer

CloudWatch Container Insights でコンテナレベルのメモリ使用率メトリクスを収集し、使用率が 80% を超えたときに CloudWatch Alarm を発火させる。Alarm のアクションとして EventBridge ルール + Lambda 関数を設定し、Lambda から ECS API（StopTask）を呼び出して該当タスクを停止する（ECS サービスが自動的に新タスクを起動する）

Answer

ECS サービスの desired count を増やして常に複数のタスクが稼働するようにし、1 つがクラッシュしても他が対応できるようにする

Answer

毎朝 12 時に EventBridge スケジュールで Lambda を実行し、全 ECS タスクを強制的に再起動することでメモリリークをリセットする

Answer

ECS タスク定義の memoryReservation を低く設定して ECS の OOM キラーが早めに動作するようにする

同じ分野の関連問題