ある企業が、受注システムからの注文データを毎日夜間にデータウェアハウスへ転送するバッチジョブを実行している。ある朝、経営陣から「昨夜の売上サマリーが今日の午前9時時点ではまだ見られない」という問い合わせがあった。この問い合わせの根本原因として最もあり得るものはどれか。
- A. バッチ処理の完了が午前9時以降にずれ込み、その時点ではデータウェアハウスへの転送が未完了だった
- B. データウェアハウスのインデックス再構築に時間がかかり、クエリが応答しなかった
- C. OLTPシステムが過負荷になり、注文データの書き込みが翌日に先送りされた
- D. ストリーミング処理のレイテンシが高く、リアルタイムデータがダッシュボードに届いていない
解答と解説を見る
正解: A
バッチ処理の本質的なトレードオフは「処理完了までの待ち時間(レイテンシ)」にある。夜間バッチが何らかの理由(データ量増加・処理エラー・再試行など)で午前9時以降まで完了しなかった場合、その時点でデータウェアハウスへの転送は未完了となりダッシュボードに昨夜のデータが反映されない。これがバッチ処理を採用する際の典型的なリスクである。選択肢Dは本シナリオがストリーミング処理ではなくバッチ処理を採用していると明記されているため、ストリーミングのレイテンシを原因とする説明は前提と矛盾する。選択肢CのOLTPシステムの過負荷は可能性としてゼロではないが、「昨夜の売上サマリーが見られない」という問い合わせの文脈では、バッチジョブの遅延がより直接的かつ典型的な原因である。選択肢Bのインデックス再構築も一因となり得るが、「バッチ転送が未完了」の方がデータが存在しない状況を直接説明する。