Dataflowとは
Apache Beam を実行エンジンとするフルマネージドのストリーミング・バッチデータ処理サービス。同一コード(Beam パイプライン)でバッチとストリームを処理できるのが特徴で、サーバー管理は不要。
Pub/Sub からのリアルタイムデータ取り込み・変換・BigQuery への書き出しというパターンが典型的な使い方。ウィンドウ関数とトリガーで遅延データや順序不同イベントを柔軟に処理できる。
ワーカー数のオートスケーリングと Dynamic Work Rebalancing で効率的なリソース利用が可能。Flex テンプレートを使うとパイプラインをコンテナ化して再利用・配布できる。
試験での問われ方
Dataflow vs Dataproc の選択は頻出。Dataflow はサーバーレス・Apache Beam 専用・ストリームとバッチ統合。Dataproc は Spark/Hadoop エコシステムの既存ジョブ移行や Spark ML が必要なケース向け。
CDL では「リアルタイムストリーミング ETL」のシナリオで Dataflow+Pub/Sub の組み合わせが定番。ACE では Beam の PCollection・PTransform の概念と、ウィンドウ(タンブリング・スライディング・セッション)の選択基準が問われる。
このサービスが登場する演習問題(3問)
- 【CDL】ある自動車メーカーが、コネクテッドカーから送信される1秒間に数百万件のセンサーデータをリアルタイムで処理し、予知保全アラ…
- 【CDL】ある企業のデータエンジニアが、複数のデータソース(Cloud Storage、Cloud SQL、外部API等)からデー…
- 【ACE】IoT デバイスから毎秒数百万件のイベントデータを受信し、リアルタイム分析に使いたいと考えています。データは一時的に蓄積…