DP-900Azure の分析ワークロードMEDIUM単一選択

あるデータエンジニアリングチームが、Azure Data Lake Storage Gen2 に格納された生ログデータ(JSON 形式・日次)を変換し、Azure Synapse Analytics の専用 SQL プールにロードするパイプラインを設計している。ELT アプローチを採用する場合の正しい処理フローはどれか。

  1. A. オンプレミスサーバーでデータを変換してから Azure にアップロードし、SQL プールに直接インポートする(変換→移動→ロード)
  2. B. データを Cosmos DB に格納し、Synapse Link 経由で SQL プールに自動同期させてから変換する
  3. C. データを ADLS Gen2 に移動し、変換処理をオンプレミスの ETL ツールで実行してから SQL プールにロードする
  4. D. 生データを SQL プールに直接ロードした後、SQL プール内の計算能力を使って変換処理を行う(ロード→変換)
解答と解説を見る

正解: D

ELT(Extract・Load・Transform)は、データをまず変換せずにターゲットのデータウェアハウスにロードし、その後ターゲット側の計算能力(SQL プールなど)を使って変換処理を行うアプローチである。クラウドのスケーラブルな計算リソースを活用できるため、ETL より大規模データに適している。選択肢 A と C はどちらもデータをロード前に変換する ETL アプローチであり、ELT ではない。特に選択肢 A はクラウド外での変換をはさんでおり、クラウドの計算能力を活用していない。選択肢 B は Synapse Link を使ったアーキテクチャの説明として不完全であり、ELT の定義にも当てはまらない。ELT は「変換をターゲット側で行う」点が ETL との本質的な違いである。

▸ この試験を本気で演習する(全150問・無料)