ある企業が、Google Cloudの「Dataproc Serverless」を採用することを検討しています。通常のCloud Dataproc(クラスター型)と比較したDataproc Serverlessの主なメリットとして最も正確なものはどれですか?
- A. Dataproc Serverlessはオンプレミスのみで動作し、Google Cloudでは使用できない
- B. Dataproc Serverlessはクラスターのプロビジョニング・スケーリング・シャットダウンを自動化し、ジョブ実行中のみリソースに課金されるため、散発的なバッチジョブのコストと管理負荷を削減できる
- C. Dataproc Serverlessは通常のDataprocよりも多くのSparkジョブタイプに対応している
- D. Dataproc ServerlessはPythonのみに対応しており、Java/ScalaのSparkジョブは実行できない
解答と解説を見る
正解: B
Dataproc Serverlessは従来のDataproc(クラスターを事前に立ち上げてジョブを投入するモデル)と異なり、クラスターの管理が不要でジョブ単位でリソースを確保・実行・解放する完全マネージドモデル。クラスターの起動待ち不要でジョブ実行中のリソース使用量のみ課金されるため、散発的なETLバッチジョブに特にコスト効率が高い。通常のDataprocと同等かそれ以上のジョブタイプをサポート。Google Cloud上のサービス。Python(PySpark)だけでなくJava/Scalaも対応。
📚 関連サービスの解説: Dataproc