AWS分析

Amazon Kinesisとは

ストリーミングデータをリアルタイムに収集・処理するサービス群。Kinesis Data Streamsはシャード単位でカスタム処理アプリが消費するデータストリーム、Kinesis Data Firehoseは変換なしでS3/Redshift/OpenSearch等に直接デリバリーするサービス。

Kinesis Data Streamsのデータ保持期間はデフォルト24時間(最大365日)。シャード数でスループットをスケール(1シャード=1MB/s書き込み・2MB/s読み取り)。

試験での問われ方

Data Streams(カスタムリアルタイム処理・複数コンシューマー)とFirehose(バッファリングして配信・変換はLambdaのみ)の違いが最頻出。SQSとの比較では「順序保証・時間遡及・複数コンシューマー」のキーワードでKinesisを選ぶ。

ストリームに対してSQLや時間ウィンドウ集計を行うマネージドな処理基盤は、現在はAmazon Managed Service for Apache Flink(旧Kinesis Data Analytics。旧名のサービスは新規作成できない)が現行解となる。「ストリームをリアルタイムに集計・分析する」要件ではFlinkを思い出したい。

SAPでは「IoT/ログのリアルタイム集計」シナリオでKinesis Data Streams+Lambda+DynamoDBの構成が問われる。Hot Shard(特定シャードへの偏り)対策としてパーティションキーの分散が重要。

このサービスが登場する演習問題(11問)

関連サービス