ある企業が 500TB のデータをオンプレミスの HDFS クラスターから Amazon S3 に移行したいと考えています。利用可能な Direct Connect 回線の帯域幅は 1Gbps です。移行期間中もデータは頻繁に更新されており、最終カットオーバーまでのデータ差分を同期する必要があります。また、移行は 4 週間以内に完了させたいと考えています。最も適切な移行アプローチはどれですか?
- A. Amazon EMR クラスターをオンプレミスの Hadoop に接続して S3 EMRFS にデータを書き込み、移行後に HDFS クラスターを廃止する
- B. AWS CLI の s3 cp コマンドを使って Direct Connect 経由で 500TB を転送する。1Gbps で 500TB の転送には約 55 時間かかる計算になる
- C. AWS Snowball Edge Storage Optimized デバイス(80TB 容量)を複数台注文し、データをデバイスにコピーして AWS に物理的に返送する
- D. AWS DataSync エージェントをオンプレミスに設置し、DataSync でオンプレミスの HDFS から S3 への継続的なデータ同期を設定する。DataSync は 1Gbps の帯域幅を効率的に使用し、転送の高速化、データ整合性検証、差分同期を自動化する
解答と解説を見る
正解: D
AWS DataSync はオンプレミスの HDFS、NFS、SMB などのストレージから S3 への自動化されたデータ転送サービスです。エージェントをオンプレミスにインストールし、Direct Connect 経由で最大帯域幅を使用します。マルチスレッドのデータ転送と自動整合性チェック、差分同期機能により、更新が続くデータの移行に最適です。DataSync は AWS CLI よりも高速(最大 10Gbps)で転送の監視も容易です。 B: AWS CLI の s3 cp は基本的な転送ツールであり、並列転送の最適化や差分同期、整合性検証の自動化がなく、500TB の本格的な移行には非効率です。 C: Snowball はオフライン転送に適していますが、500TB を 4 台以上のデバイスで送る必要があり、移行期間中の継続的な差分同期ができません。Direct Connect がある場合はオンライン転送の方が適しています。 A: EMR クラスターの接続は可能ですが、単純なデータ移行のためだけにクラスターを設定・管理するのは不必要な複雑性をもたらします。DataSync の方がはるかシンプルです。
📚 関連サービスの解説: Amazon S3