Azure Databricksとは
Azure Databricksは、Apache Sparkをベースにしたフルマネージドのビッグデータ分析・機械学習プラットフォームだ。DatabricksとMicrosoftの共同開発で、Azure上で最適化されたSparkクラスターを提供する。データエンジニアリング・機械学習・ストリーミング分析などに広く使われる。
ノートブック形式での対話的な分析やPython・Scala・R・SQLの混在実行が可能だ。MLflowによるモデル実験管理、Delta Lakeによるデータレイクの信頼性向上など、DataOpsとMLOpsの両面をカバーする機能を持つ。
試験での問われ方
DatabricksとSynapseの使い分けが問われる。Databricksはデータサイエンティストや機械学習エンジニアがSparkを使って大規模処理や機械学習を行うのに向く。SynapseはSQLベースのデータウェアハウス処理やデータ統合パイプライン(Data Factoryとの統合)に強い。AZ-900やDP-900では「機械学習のためのビッグデータ処理基盤」という文脈でDatabricksが選択肢に登場する。
このサービスが登場する演習問題(4問)
- 【DP-900】あるデータサイエンスチームが、Azure Databricks を使って機械学習モデルのトレーニングを行いたい。チームは…
- 【DP-900】ある企業がデータレイクアーキテクチャを設計している。Azure Data Lake Storage Gen2 の特徴とし…
- 【DP-900】ある企業が Azure Databricks でデータ分析チームを運営している。データエンジニア・データサイエンティスト…
- 【DP-900】ある企業が Azure Databricks と Microsoft Fabric のどちらを採用するか検討している。そ…