DP-900Azure の分析ワークロードMEDIUM単一選択

あるデータサイエンスチームが、Azure Databricks を使って機械学習モデルのトレーニングを行いたい。チームはノートブック環境でコードを書きながら、大規模な分散処理が必要な場面では Spark クラスターを活用したいと考えている。Azure Databricks がこのユースケースに適している主な理由として正しいものはどれか。

  1. A. Azure Databricks は Apache Spark をベースとしており、Python・R・Scala でのノートブック開発と大規模分散処理を統合した環境を提供する
  2. B. Azure Databricks は専用 SQL プールのみで動作し、ノートブックインターフェースは提供していない
  3. C. Azure Databricks はストリーミング処理に特化しており、機械学習のトレーニングには利用できない
  4. D. Azure Databricks は SQL のみをサポートしており、ノートブックでの Python/R コードは実行できない
解答と解説を見る

正解: A

Azure Databricks は Apache Spark をベースとしたビッグデータ・機械学習プラットフォームであり、Python(PySpark)・R・Scala・SQL をサポートするノートブック環境を提供している。MLlib などの Spark 機械学習ライブラリや MLflow による実験管理も統合されており、データ探索から大規模モデルトレーニングまでを一環境で実施できる。選択肢 D は誤りで、Databricks は Python・R・Scala など複数言語のノートブックをサポートしている。選択肢 B も誤りで、Databricks は専用 SQL プールではなく Spark クラスターで動作し、ノートブックは中心的なインターフェースである。選択肢 C も誤りで、Databricks はバッチ処理・機械学習・ストリーミング処理のいずれにも対応している。

▸ この試験を本気で演習する(全150問・無料)