SAA-C03コストを最適化したアーキテクチャの設計MEDIUM単一選択

ある企業が、Amazon EC2 Spot インスタンスを使って機械学習モデルのハイパーパラメータチューニングを実行している。チューニングジョブは複数の試行(Trial)を並列に実行し、各 Trial は独立して中断・再開が可能である。Spot インスタンスが中断された場合のコストを最小化しながらジョブを確実に完了させる最も適切な方法はどれか。

  1. A. Spot インスタンスの代わりに Reserved Instances を使い、コストを削減する。
  2. B. Spot インスタンスの中断を無視して、中断されたインスタンスを手動で再起動する。
  3. C. Amazon SageMaker の Managed Spot Training 機能を使って Spot インスタンスでトレーニングジョブを実行する。SageMaker は自動的にスポット中断を処理し、チェックポイントから再開する。
  4. D. オンデマンドインスタンスでジョブを実行し、Spot 中断リスクをゼロにする。
解答と解説を見る

正解: C

Amazon SageMaker の Managed Spot Training はSageMaker のトレーニングジョブで Spot インスタンスを使う機能で、スポット中断が発生した場合のチェックポイントからの自動再開を管理する。オンデマンド比最大 90% のコスト削減が可能で、チェックポイントは S3 に保存されるため Spot 中断後もジョブが正確に再開される。選択肢Bの手動再起動は運用担当者の常時監視が必要で、夜間・休日の中断対応が困難。選択肢DはオンデマンドインスタンスではSpot の最大 90% コスト削減を逃す。ハイパーパラメータチューニングのような多数の試行では大幅なコスト差が生じる。選択肢AのReserved Instances は常時稼働の定常ワークロード向けであり、バースト的なチューニングジョブには Spot の方がコスト効率が高い。Reserved Instances はコミットメントが必要で、利用頻度が低い場合には無駄が生じる。

▸ この試験を本気で演習する(全150問・無料)