Question

ある企業が AWS 上で Amazon EKS クラスターを運用しています。クラスターには数百のマイクロサービスがデプロイされており、障害発生時に原因特定に時間がかかるという問題があります。現在は各マイクロサービスのログが CloudWatch Logs に個別に送られていますが、サービス間のリクエスト追跡（分散トレーシング）ができておらず、ボトルネックのサービスを特定することが困難です。最も効果的な可観測性改善策はどれですか？

Accepted Answer

AWS X-Ray を EKS クラスターに統合し、X-Ray デーモンを DaemonSet としてデプロイする。Amazon CloudWatch Container Insights を有効化してコンテナレベルのメトリクスを収集し、CloudWatch Logs Insights でログの横断検索を行う。AWS Distro for OpenTelemetry（ADOT）コレクターを使ってトレースとメトリクスを標準化する

Answer

すべてのマイクロサービスのログを Kinesis Data Firehose で S3 に保存し、Athena で後からログを分析する

Answer

Kubernetes の kubectl top コマンドでリソース使用率を定期的に確認し、問題のあるノードを手動で再起動する

Answer

各マイクロサービスにカスタムロギングコードを追加し、相関 ID を手動でリクエストヘッダーに伝播させる

同じ分野の関連問題