Question

ある企業が AWS 上で大規模なデータ処理パイプラインを設計しており、1 日に 10 億件のイベントを処理する必要があります。各イベントは 1KB 以下で、5 分以内にリアルタイム処理と、90 日分の履歴データを分析するバッチ処理の両方が必要です。ストリーム処理とバッチ処理を統合した「ラムダアーキテクチャ」を AWS で実装するには、どの設計が最も適切ですか？

Accepted Answer

Amazon Kinesis Data Streams でリアルタイムストリームを受信し、Kinesis Data Analytics（Apache Flink）でストリーム処理（速度層）を行う。Kinesis Data Firehose で全イベントを S3 の Parquet 形式で保存し（バッチ層）、定期的に Glue ETL ジョブで集計・加工して S3 データレイクを構築する。Athena でアドホック分析を提供するラムダアーキテクチャを実装する

Answer

Amazon SQS で全イベントを受信し、Lambda で処理して RDS に保存する

Answer

Amazon RDS に全イベントを書き込み、リアルタイムクエリとバッチクエリを同一データベースで処理する

Answer

全イベントを DynamoDB に書き込み、DynamoDB Streams でバッチ処理をトリガーする

同じ分野の関連問題