Dataprocとは
Apache Spark・Hadoop・Hive・Flink などを動かすマネージドクラスタサービス。クラスタをオンデマンドで起動してジョブを実行し終了後に削除するエフェメラルクラスタパターンが低コスト運用の基本。
既存の Spark/Hadoop ジョブをほぼそのまま移行でき、オンプレミスからクラウドへのリフトアンドシフトに向く。Cloud Storage を HDFS 互換のストレージとして使うことでクラスタ終了後もデータを保持できる。
Dataproc Serverless では Spark ジョブをクラスタ管理なしに実行でき、ワーカーのプロビジョニングを意識せずに済む。
試験での問われ方
Dataflow との使い分けは必須理解。Dataproc は「既存 Spark ジョブの移行」「Spark ML の活用」「Hadoop エコシステムの維持」が選択基準。新規にパイプラインを設計するならサーバーレスの Dataflow が推奨。
ACE では Preemptible VM をワーカーノードに使ってコストを削減するパターンと、クラスタをジョブ単位に起動・終了するエフェメラル運用、Custom Image を使った初期化スクリプト不要の高速起動が問われやすい。