ある企業が Azure Databricks を使って機械学習パイプラインを構築している。モデルのトレーニング実験(ハイパーパラメータのチューニング結果・精度指標・モデルアーティファクト)を体系的に追跡・比較・管理するために、Databricks が標準統合しているオープンソースの ML ライフサイクル管理ツールはどれか。
- A. Apache Kafka:分散ストリーミングプラットフォーム
- B. Delta Lake:ACID トランザクションをサポートするオープンソースのストレージレイヤー
- C. MLflow:ML 実験追跡・モデル登録・デプロイを管理するオープンソースプラットフォーム
- D. Apache Airflow:ワークフロースケジューリングと依存関係管理ツール
解答と解説を見る
正解: C
MLflow は Databricks が開発したオープンソースの ML ライフサイクル管理プラットフォームであり、Azure Databricks に標準統合されている。実験追跡(Tracking)・プロジェクト管理(Projects)・モデル登録(Model Registry)・モデルサービング(Serving)の4コンポーネントを持つ。ハイパーパラメータ・メトリクス・モデルアーティファクトを自動記録し、実験間の比較を UI 上で行える。選択肢 D の Apache Airflow はワークフロースケジューラーであり、ML 実験の追跡・比較機能を持たない。選択肢 A の Apache Kafka はメッセージキュー・ストリーミングプラットフォームであり、ML ライフサイクル管理とは役割が異なる。選択肢 B の Delta Lake はストレージレイヤーであり、トランザクション整合性やデータバージョニングを提供するが、ML 実験追跡機能は持たない。