ある企業が、OLTPシステムのトランザクションデータをデータウェアハウスに転送する際のデータ変換プロセス(ETL)を設計している。ETL の各フェーズとその目的について正しい説明を2つ選択してください。
- A. Extract(抽出)フェーズ:変換ルールをコーディングしてビジネスロジックをデータに適用する
- B. Load(ロード)フェーズ:変換済みデータをターゲットのデータウェアハウスまたはデータマートに書き込む
- C. Transform(変換)フェーズ:異なるソースのデータを統一スキーマへの変換・クレンジング・デデュープ(重複排除)などの処理を実施する
- D. Extract(抽出)フェーズ:データウェアハウスに格納されたデータを削除してストレージを解放する
- E. Transform(変換)フェーズ:データウェアハウスのユーザーアカウントにアクセス権限を付与する
解答と解説を見る
正解: B, C
ETLはExtract(抽出)・Transform(変換)・Load(ロード)の3フェーズから構成される。Transform(変換)フェーズでは、異なるソースから抽出したデータを統一スキーマに合わせて変換し、欠損値処理・型変換・重複排除(デデュープ)・ビジネスルールの適用などのクレンジング処理を行う。Load(ロード)フェーズでは変換済みデータをデータウェアハウス・データマートの対象テーブルに書き込む処理を担う。選択肢Dは「データの削除・ストレージ解放」としておりExtractの定義と全く異なる。Extractはソースシステムからデータを読み取る(抽出する)フェーズである。選択肢AはExtractフェーズを「変換ルールのコーディング」と説明しているが、変換ルールの適用はTransformフェーズの責務である。Extractはデータを取り出すことに専念し変換は行わない。選択肢EはTransformフェーズを「アクセス権限付与」と説明しているが、これはデータベース管理者(DBA)の責務であり、Transformフェーズの定義とは無関係である。