Question

ある企業が、Amazon Kinesis Data Streams からリアルタイムでデータを消費して Amazon S3 に保存し、さらに Amazon Redshift にもリアルタイムでロードしたい。S3 への保存は JSON → Parquet 変換を行いたい。追加の ETL コードを書かずに、最小限の設定でこれを実現する最も適切なソリューションはどれか。

Accepted Answer

Amazon Data Firehose（旧 Kinesis Data Firehose）デリバリーストリームを 2 つ作成する。1 つは S3 を配信先として Dynamic Partitioning と Lambda 変換（または Apache Parquet 変換）を設定し、もう 1 つは Redshift を配信先として設定する。Kinesis Data Streams から両 Firehose に扇出（fan-out）する。

Answer

AWS Glue Streaming ETL ジョブを使って Kinesis から S3（Parquet 変換）と Redshift に同時書き込みする。

Answer

Lambda 関数で Kinesis データを消費し、S3 に Parquet 変換して保存し、Redshift COPY コマンドで定期的にロードする。

Answer

Amazon EMR で Spark ストリーミングジョブを起動して Kinesis からデータを消費し、S3 と Redshift に書き込む。

同じ分野の関連問題