DP-900Azure の分析ワークロードMEDIUM単一選択

ある小売企業が Azure Synapse Analytics で販売分析基盤を構築している。専用 SQL プールのディストリビューション戦略を検討しており、売上ファクトテーブル(1億行)と商品ディメンションテーブル(10万行)の JOIN クエリのデータ移動を最小化したい。最も適切な分散方式の組み合わせはどれか。

  1. A. 売上ファクトテーブル:REPLICATE 分散、商品ディメンションテーブル:HASH 分散(商品ID)
  2. B. 売上ファクトテーブル:ROUND_ROBIN 分散、商品ディメンションテーブル:ROUND_ROBIN 分散
  3. C. 売上ファクトテーブル:HASH 分散(商品ID)、商品ディメンションテーブル:REPLICATE(全ノードにコピー)
  4. D. 売上ファクトテーブル:ROUND_ROBIN 分散、商品ディメンションテーブル:HASH 分散(商品ID)
解答と解説を見る

正解: C

Synapse Analytics の専用 SQL プールでは、大きなファクトテーブルは HASH 分散(結合キーでデータを各ノードに均等配布)を使い、結合キーが一致するデータが同じノードに格納されることでデータ移動を最小化する。小さなディメンションテーブルは REPLICATE(全ノードにフルコピー)を使うと、JOIN 時にデータ移動が不要になりパフォーマンスが向上する。商品ディメンション10万行はレプリケーションに適したサイズである。選択肢 B の ROUND_ROBIN 同士では JOIN 時にデータシャッフルが発生し、大量のデータ移動が生じる。選択肢 A はファクトテーブルをレプリケートする設計だが、1億行の大テーブルをレプリケートするとストレージと更新コストが膨大になり非現実的である。選択肢 D は組み合わせが逆であり、JOIN 時のデータ移動削減効果が低い。

▸ この試験を本気で演習する(全150問・無料)