Google Cloud分析演習3問

Dataflowとは

Apache Beam を実行エンジンとするフルマネージドのストリーミング・バッチデータ処理サービス。同一コード（Beam パイプライン）でバッチとストリームを処理できるのが特徴で、サーバー管理は不要。

Pub/Sub からのリアルタイムデータ取り込み・変換・BigQuery への書き出しというパターンが典型的な使い方。ウィンドウ関数とトリガーで遅延データや順序不同イベントを柔軟に処理できる。

ワーカー数のオートスケーリングと Dynamic Work Rebalancing で効率的なリソース利用が可能。Flex テンプレートを使うとパイプラインをコンテナ化して再利用・配布できる。

試験での問われ方

Dataflow vs Dataproc の選択は頻出。Dataflow はサーバーレス・Apache Beam 専用・ストリームとバッチ統合。Dataproc は Spark/Hadoop エコシステムの既存ジョブ移行や Spark ML が必要なケース向け。

CDL では「リアルタイムストリーミング ETL」のシナリオで Dataflow＋Pub/Sub の組み合わせが定番。ACE では Beam の PCollection・PTransform の概念と、ウィンドウ（タンブリング・スライディング・セッション）の選択基準が問われる。