Question

ある企業が、Amazon Aurora PostgreSQL を使ったシステムで、大量のデータをバッチ処理でロードするETL 処理のパフォーマンスが低いという問題を抱えている。毎晩数百万件のレコードを Aurora テーブルに UPSERT する処理に 4〜5 時間かかっており、2 時間以内に完了させたい。データはステージングの S3 に CSV 形式で保存されている。最も適切な方法はどれか。

Accepted Answer

Amazon Redshift に一時ステージングテーブルを作成して S3 から COPY コマンドでデータを高速ロードし、Aurora に必要なデータのみをバッチで書き込む。または AWS Glue ETL ジョブを使って S3 から Aurora へのバルクロードを並列処理する。

Answer

Amazon Aurora の並列クエリ機能を有効化して大量データの処理を高速化する。

Answer

Aurora の自動バックアップを無効化してETL 処理中のオーバーヘッドを削減する。

Answer

アプリケーションから 1 件ずつ UPSERT クエリを発行し、マルチスレッドで並列化する。

同じ分野の関連問題