AWS Glueとは
フルマネージドのETL(Extract, Transform, Load)サービス。データカタログによるメタデータ管理と、Apache Sparkベースのサーバーレスジョブ実行環境を提供する。
Glueクローラーがデータソース(S3・RDS等)を自動スキャンしてスキーマを推定しカタログに登録する。スキーマ・テーブル定義を保持するData CatalogはGlue単体のものではなく、AthenaやEMR・Redshift Spectrumとも共有される横断的なメタデータストアという位置づけが重要だ。ジョブに組み込めるGlue Data Qualityで品質ルールを定義・検証でき、ノーコードでデータをクレンジング・正規化するDataBrew、複数ジョブとクローラーを依存関係つきで束ねるWorkflowも備える。
試験での問われ方
「S3のデータをETLしてRedshiftやAthenaで分析」という定番パターンではGlueが登場する。Glueカタログ+Athenaの組み合わせはAWS分析スタックの基本として問われる。
Glue vs DMS の使い分けはETL(データ変換・集計)かデータ移行(DB間のレプリケーション)かで判断する。コンソールに統合されたビジュアルETLエディタ(旧Glue Studio相当の機能)を使えば、変換処理をドラッグ&ドロップで組み立ててSparkコードを自動生成できる。
このサービスが登場する演習問題(9問)
- 【SAA-C03】ある企業が、Amazon Athena を使って S3 上のログデータ(CSV 形式、毎日約 100GB 追加)に対して…
- 【SAA-C03】ある企業が、毎日大量の ETL ジョブを AWS Glue で実行しており、Glue のコストを削減したい。ジョブは複数…
- 【SAA-C03】ある企業が、AWS Glue Data Catalog を使って S3 上のデータカタログを管理し、Amazon Ath…
- 【SAA-C03】ある企業が、Amazon S3 バケットを使ったデータレイクを構築しており、異なるチームに対してデータへのアクセス制御を…
- 【SAP-C02】ある企業が AWS 上でデータレイクを構築しています。様々なソース(オンプレミス DB、SaaS アプリ、IoT センサ…
- 【SAP-C02】ある企業が完全サーバーレスのデータ処理パイプラインを設計しています。オンプレミスのシステムから毎日 100GB のデータ…
- 【SAP-C02】ある企業が AWS 上で高頻度取引(HFT)システムのバックテストプラットフォームを構築しています。10 年分の市場デー…
- 【SAP-C02】ある企業が既存のオンプレミスの Hadoop/Spark クラスター(100 ノード)を AWS に移行しています。現在…
- 【SAP-C02】ある企業が AWS 上でハイブリッドアーキテクチャを設計しており、オンプレミスのデータウェアハウスのデータを AWS の…