AWS分析演習9問

AWS Glueとは

フルマネージドのETL（Extract, Transform, Load）サービス。データカタログによるメタデータ管理と、Apache Sparkベースのサーバーレスジョブ実行環境を提供する。

Glueクローラーがデータソース（S3・RDS等）を自動スキャンしてスキーマを推定しカタログに登録する。スキーマ・テーブル定義を保持するData CatalogはGlue単体のものではなく、AthenaやEMR・Redshift Spectrumとも共有される横断的なメタデータストアという位置づけが重要だ。ジョブに組み込めるGlue Data Qualityで品質ルールを定義・検証でき、ノーコードでデータをクレンジング・正規化するDataBrew、複数ジョブとクローラーを依存関係つきで束ねるWorkflowも備える。

公式ドキュメント →

試験での問われ方

「S3のデータをETLしてRedshiftやAthenaで分析」という定番パターンではGlueが登場する。Glueカタログ＋Athenaの組み合わせはAWS分析スタックの基本として問われる。

Glue vs DMS の使い分けはETL（データ変換・集計）かデータ移行（DB間のレプリケーション）かで判断する。コンソールに統合されたビジュアルETLエディタ（旧Glue Studio相当の機能）を使えば、変換処理をドラッグ&ドロップで組み立ててSparkコードを自動生成できる。

AWS Glueとは

試験での問われ方

このサービスが登場する演習問題（9問）

関連サービス