Question

ある企業が AWS 上でハイブリッドアーキテクチャを設計しており、オンプレミスのデータウェアハウスのデータを AWS の機械学習パイプラインで活用したいと考えています。データは毎日更新され、ML トレーニングのために S3 に取り込む必要があります。オンプレミスのデータウェアハウスは Teradata で、Direct Connect 経由で接続されています。最小限の開発コストで自動化されたデータパイプラインを構築するには、どのアーキテクチャが最適ですか？

Accepted Answer

AWS Glue の JDBC コネクターを使用して Teradata に接続し、毎日スケジュール実行される Glue ETL ジョブでデータを S3 に抽出・変換・ロードする。Glue のジョブブックマーク機能で差分データのみを抽出し、増分ロードを実現する

Answer

AWS Database Migration Service（DMS）を継続的レプリケーションモードで設定し、Teradata の全変更データをリアルタイムで S3 に取り込む

Answer

Amazon Kinesis Data Firehose を Direct Connect 経由でオンプレミスから直接呼び出して S3 にストリーミング取り込みする

Answer

オンプレミスの Teradata から毎日手動でデータをエクスポートし、SFTP で AWS S3 にアップロードする

同じ分野の関連問題