ある企業が、機械学習モデルの学習に大量のデータセット(合計 500TB)をストレージから読み込む処理を AWS で実行したい。ストレージとコンピューティングが密結合してスループットが不足している。高スループット・低レイテンシーで大規模なデータセットへのアクセスが必要で、複数の EC2 インスタンスから同時アクセスしたい。最も適切なストレージサービスはどれか。
- A. Amazon EBS(io2 Block Express)ボリュームを各 EC2 インスタンスにアタッチして高 IOPS を確保する。
- B. Amazon FSx for Lustre を使用し、S3 のデータを Lustre ファイルシステムにリンクする。複数の EC2 インスタンスから高スループット(数百 GB/s)での並列アクセスが可能。
- C. Amazon EFS(Elastic File System)をマウントして複数 EC2 インスタンスからの共有アクセスを実現する。
- D. Amazon S3 に全データを保存し、EC2 インスタンスから直接 S3 API でアクセスする。
解答と解説を見る
正解: B
Amazon FSx for Lustre は HPC(高性能コンピューティング)や機械学習向けに設計された高スループットの並列ファイルシステムで、数百 GB/s のアグリゲートスループットと数百万 IOPS を実現できる。S3 との統合機能(S3 バケットをデータリポジトリとしてリンク)により、S3 のデータを Lustre ファイルシステムとして透過的にアクセスでき、複数 EC2 から同時アクセスも可能。選択肢DのS3 直接アクセスはスループットとレイテンシーが FSx for Lustre より劣り、機械学習の学習ループのように大量のランダムアクセスが連続するワークロードには向かない。選択肢AのEBS io2 は単一 EC2 インスタンスへのアタッチが基本であり(Multi-Attach は一部対応するが制限あり)、複数インスタンスからの大規模並列アクセスには適さない。選択肢CのEFS は複数インスタンスからの共有アクセスは可能だが、FSx for Lustre に比べてスループットが大幅に低く、大規模 ML 学習の要件を満たさない。
📚 関連サービスの解説: Amazon S3 ・ Amazon EC2