Google Cloud分析

Dataflowとは

Apache Beam を実行エンジンとするフルマネージドのストリーミング・バッチデータ処理サービス。同一コード(Beam パイプライン)でバッチとストリームを処理できるのが特徴で、サーバー管理は不要。

Pub/Sub からのリアルタイムデータ取り込み・変換・BigQuery への書き出しというパターンが典型的な使い方。ウィンドウ関数とトリガーで遅延データや順序不同イベントを柔軟に処理できる。

ワーカー数のオートスケーリングと Dynamic Work Rebalancing で効率的なリソース利用が可能。Flex テンプレートを使うとパイプラインをコンテナ化して再利用・配布できる。

試験での問われ方

Dataflow vs Dataproc の選択は頻出。Dataflow はサーバーレス・Apache Beam 専用・ストリームとバッチ統合。Dataproc は Spark/Hadoop エコシステムの既存ジョブ移行や Spark ML が必要なケース向け。

CDL では「リアルタイムストリーミング ETL」のシナリオで Dataflow+Pub/Sub の組み合わせが定番。ACE では Beam の PCollection・PTransform の概念と、ウィンドウ(タンブリング・スライディング・セッション)の選択基準が問われる。

このサービスが登場する演習問題(3問)

関連サービス