SAP-C02ワークロードの移行とモダナイゼーションの加速HARD単一選択

ある企業が既存のオンプレミスの Hadoop/Spark クラスター(100 ノード)を AWS に移行しています。現在のクラスターは毎日 12 時間稼働し、夜間のデータ処理バッチを実行しています。チームは Spark の知識があり、コードの変更を最小限に抑えたいと考えています。また、移行後はクラスターを使わない時間はゼロコストにしたいと考えています。最も適切な移行先はどれですか?

  1. A. AWS Glue for Spark(AWS Glue のスパークエンジン)を使用し、既存の PySpark/Scala Spark コードをほぼそのままで実行する。Glue ジョブはオンデマンドで起動し、処理完了後はリソースが解放されるため、使わない時間のコストはゼロになる。Glue ETL の DPU(Data Processing Unit)で従量課金
  2. B. Amazon EC2 クラスターに Hadoop と Spark を手動インストールし、24 時間稼働させる
  3. C. Amazon EMR の常時稼働クラスターに移行し、コスト削減のために Reserved Instance を購入する
  4. D. Amazon SageMaker Processing ジョブとして Spark コードを実行する
解答と解説を見る

正解: A

AWS Glue for Spark はサーバーレスの Spark 実行環境で、PySpark と Scala Spark コードを最小限の変更(一部 Glue コンテキストの追加が必要な場合あり)で実行できます。ジョブ実行時のみ課金され、待機時間のコストは完全にゼロです。毎日 12 時間のバッチ処理に最適で、スケジュールトリガー(EventBridge)での自動起動も可能です。 B: EC2 に手動インストールすると 24 時間のインフラ管理が必要で、使わない時間もコストがかかります。クラスター管理の運用負荷も高くなります。 C: EMR の常時稼働は 12 時間しか使わないのに 24 時間のコストが発生します。Reserved Instance を購入してもゼロコストにはなりません。EMR はクラスター起動と管理の負荷も生じます。 D: SageMaker Processing は ML の前処理に主に使われ、汎用的な Spark バッチ処理には Glue の方が適切でシンプルです。

▸ この試験を本気で演習する(全150問・無料)