Question

ある企業が完全サーバーレスのデータ処理パイプラインを設計しています。オンプレミスのシステムから毎日 100GB のデータを S3 に転送し、データのクレンジング・変換処理を行って、最終的に Amazon Redshift にロードします。処理には複数のステップがあり、各ステップの成功/失敗を追跡し、失敗した場合は自動的に再試行する必要があります。インフラの管理を完全に排除したいと考えています。実現するために使用するべきサービスを2つ選択してください。

Accepted Answer

AWS Step Functions でパイプラインの各ステップのワークフローを管理し、失敗時の自動再試行と状態管理を実装する

Accepted Answer

AWS Glue ETL ジョブでデータのクレンジング・変換を実行する

Answer

Amazon EC2 Auto Scaling グループで処理サーバーを管理し、SQS キューからジョブを取得する

Answer

AWS Data Pipeline でジョブスケジューリングを管理する

Answer

Amazon EMR でデータ処理クラスターを管理し、Spark ジョブを実行する

同じ分野の関連問題