AIF-C01AI と ML の基礎HARD複数選択

ある企業が大規模な深層学習モデルのトレーニングを Amazon SageMaker で実施しようとしています。単一のGPUインスタンスではメモリが不足するほど大きなモデルを効率的にトレーニングするための正しいアプローチを2つ選択してください。

  1. A. トレーニングデータをすべてメモリに事前ロードして処理速度を上げる
  2. B. SageMaker の分散トレーニング(モデル並列化)を使用し、モデルのレイヤーを複数の GPU に分割する
  3. C. バッチサイズを最大限に増やすことで GPU の稼働率を上げる
  4. D. 単一 GPU の VRAM を超えるモデルは必ず小さくリアーキテクチャしてから使用する
  5. E. SageMaker の分散トレーニング(データ並列化)を使用し、異なるデータのサブセットを複数の GPU で同時に処理する
解答と解説を見る

正解: B, E

モデル並列化(Model Parallelism)はモデル自体を複数の GPU に分割する手法で、単一 GPU では収まりきらない大規模モデルのトレーニングを可能にします(B)。データ並列化(Data Parallelism)は各 GPU に同じモデルのコピーを置き、異なるデータを並列処理して勾配を集約する手法で、トレーニングスループットを向上させます(E)。SageMaker はどちらの手法もサポートしており、これらを組み合わせることでスケールアウトが可能です。全データをメモリに事前ロードすることはメモリ不足の原因になります(A)。モデルを強制的に小さくすることは性能要件を満たさない可能性があり、最適解ではありません(D)。バッチサイズの増大はメモリ不足をさらに悪化させます(C)。

▸ この試験を本気で演習する(全150問・無料)