Question

ある企業が、AWS で機械学習モデルの学習ジョブを定期的に実行している。学習には GPU インスタンスが必要で、週に 2〜3 回、1 回あたり 4〜8 時間かかる。学習ジョブを管理・スケジューリングし、必要なときだけ GPU インスタンスを起動してコストを最小化したい。最も適切なアーキテクチャはどれか。

Accepted Answer

Amazon SageMaker Training Jobs を使用し、学習ジョブが必要な際に一時的にインスタンスを起動して学習を実行する。ジョブ完了後はインスタンスが自動的に終了し、実際の学習時間のみ課金される。

Answer

AWS Batch でジョブキューを設定し、Spot インスタンスで学習ジョブを実行する。

Answer

EC2 Auto Scaling グループで GPU インスタンスを管理し、CloudWatch アラームで起動・停止を自動化する。

Answer

GPU EC2 インスタンスを常時稼働させて、いつでも学習ジョブを実行できるようにする。

同じ分野の関連問題