AWS分析

Amazon Redshiftとは

ペタバイト規模のデータウェアハウスサービス。列指向ストレージとMPP(超並列処理)アーキテクチャにより、大量データへの分析クエリを高速に実行できる。PostgreSQL互換のSQLインターフェースを持つ。

Redshift Spectrumを使うとS3上のデータを直接クエリでき、ウェアハウスにロードせずに分析できる。Redshift Serverlessはキャパシティ管理不要で使用量ベース課金が可能。

試験での問われ方

「大量の構造化データを分析したい」「ETL後のデータを集計・レポーティングしたい」シナリオではRedshiftを選ぶ。OLTPはRDS、OLAPはRedshiftという使い分けが基本軸。

AthenaはS3への即時アドホッククエリ、RedshiftはDWH的な定常的な大規模分析という違いが問われる。Redshift Spectrum(S3上のデータをロードせず直接クエリ)を使う場合でも結果はRedshiftクラスター経由となる点に注意。

ノードタイプではRA3が定番で、コンピュートとストレージを分離(マネージドストレージにデータを置き、必要な分だけクラスターにキャッシュ)するため、容量とノード数を独立に増やせる。読み取りの同時実行が増えたときだけ一時的にクラスターを自動増設するConcurrency Scaling、クラスター管理自体が不要なRedshift Serverlessも、ワークロードの変動とコストのトレードオフで選ぶ対象として問われる。

このサービスが登場する演習問題(6問)

関連サービス