AWS分析

AWS Glueとは

フルマネージドのETL(Extract, Transform, Load)サービス。データカタログによるメタデータ管理と、Apache Sparkベースのサーバーレスジョブ実行環境を提供する。

Glueクローラーがデータソース(S3・RDS等)を自動スキャンしてスキーマを推定しカタログに登録する。スキーマ・テーブル定義を保持するData CatalogはGlue単体のものではなく、AthenaやEMR・Redshift Spectrumとも共有される横断的なメタデータストアという位置づけが重要だ。ジョブに組み込めるGlue Data Qualityで品質ルールを定義・検証でき、ノーコードでデータをクレンジング・正規化するDataBrew、複数ジョブとクローラーを依存関係つきで束ねるWorkflowも備える。

試験での問われ方

「S3のデータをETLしてRedshiftやAthenaで分析」という定番パターンではGlueが登場する。Glueカタログ+Athenaの組み合わせはAWS分析スタックの基本として問われる。

Glue vs DMS の使い分けはETL(データ変換・集計)かデータ移行(DB間のレプリケーション)かで判断する。コンソールに統合されたビジュアルETLエディタ(旧Glue Studio相当の機能)を使えば、変換処理をドラッグ&ドロップで組み立ててSparkコードを自動生成できる。

このサービスが登場する演習問題(9問)

関連サービス