Amazon Redshiftとは
ペタバイト規模のデータウェアハウスサービス。列指向ストレージとMPP(超並列処理)アーキテクチャにより、大量データへの分析クエリを高速に実行できる。PostgreSQL互換のSQLインターフェースを持つ。
Redshift Spectrumを使うとS3上のデータを直接クエリでき、ウェアハウスにロードせずに分析できる。Redshift Serverlessはキャパシティ管理不要で使用量ベース課金が可能。
試験での問われ方
「大量の構造化データを分析したい」「ETL後のデータを集計・レポーティングしたい」シナリオではRedshiftを選ぶ。OLTPはRDS、OLAPはRedshiftという使い分けが基本軸。
AthenaはS3への即時アドホッククエリ、RedshiftはDWH的な定常的な大規模分析という違いが問われる。Redshift Spectrum(S3上のデータをロードせず直接クエリ)を使う場合でも結果はRedshiftクラスター経由となる点に注意。
ノードタイプではRA3が定番で、コンピュートとストレージを分離(マネージドストレージにデータを置き、必要な分だけクラスターにキャッシュ)するため、容量とノード数を独立に増やせる。読み取りの同時実行が増えたときだけ一時的にクラスターを自動増設するConcurrency Scaling、クラスター管理自体が不要なRedshift Serverlessも、ワークロードの変動とコストのトレードオフで選ぶ対象として問われる。
このサービスが登場する演習問題(6問)
- 【CLF-C02】ある企業が、毎月数テラバイトの販売データを分析してビジネスインサイトを得たいと考えています。大量のデータをSQLで高速に…
- 【SAA-C03】ある企業が、Amazon Aurora MySQL でオンライントランザクション処理(OLTP)と分析クエリ(OLAP)…
- 【SAA-C03】ある企業が、Amazon Redshift でビジネスインテリジェンス(BI)ダッシュボードへのクエリを実行している。複…
- 【SAA-C03】ある企業が、Amazon Aurora PostgreSQL を使ったシステムで、大量のデータをバッチ処理でロードするE…
- 【SAP-C02】ある企業が AWS 上で Amazon Redshift クラスターを運用しており、毎日数十のバッチクエリが実行されてい…
- 【SAP-C02】ある企業がオンプレミスのデータウェアハウス(Teradata)から Amazon Redshift に移行する計画を立て…