Question

ある企業が既存のオンプレミスの Hadoop/Spark クラスター（100 ノード）を AWS に移行しています。現在のクラスターは毎日 12 時間稼働し、夜間のデータ処理バッチを実行しています。チームは Spark の知識があり、コードの変更を最小限に抑えたいと考えています。また、移行後はクラスターを使わない時間はゼロコストにしたいと考えています。最も適切な移行先はどれですか？

Accepted Answer

AWS Glue for Spark（AWS Glue のスパークエンジン）を使用し、既存の PySpark/Scala Spark コードをほぼそのままで実行する。Glue ジョブはオンデマンドで起動し、処理完了後はリソースが解放されるため、使わない時間のコストはゼロになる。Glue ETL の DPU（Data Processing Unit）で従量課金

Answer

Amazon EC2 クラスターに Hadoop と Spark を手動インストールし、24 時間稼働させる

Answer

Amazon EMR の常時稼働クラスターに移行し、コスト削減のために Reserved Instance を購入する

Answer

Amazon SageMaker Processing ジョブとして Spark コードを実行する

同じ分野の関連問題