Microsoft Azure分析

Azure Databricksとは

Azure Databricksは、Apache Sparkをベースにしたフルマネージドのビッグデータ分析・機械学習プラットフォームだ。DatabricksとMicrosoftの共同開発で、Azure上で最適化されたSparkクラスターを提供する。データエンジニアリング・機械学習・ストリーミング分析などに広く使われる。

ノートブック形式での対話的な分析やPython・Scala・R・SQLの混在実行が可能だ。MLflowによるモデル実験管理、Delta Lakeによるデータレイクの信頼性向上など、DataOpsとMLOpsの両面をカバーする機能を持つ。

試験での問われ方

DatabricksとSynapseの使い分けが問われる。Databricksはデータサイエンティストや機械学習エンジニアがSparkを使って大規模処理や機械学習を行うのに向く。SynapseはSQLベースのデータウェアハウス処理やデータ統合パイプライン(Data Factoryとの統合)に強い。AZ-900やDP-900では「機械学習のためのビッグデータ処理基盤」という文脈でDatabricksが選択肢に登場する。

このサービスが登場する演習問題(4問)

関連サービス