Question

ある製薬企業が医薬品の研究データ（ゲノム解析データ）を AWS で処理するシステムを設計しています。データセットは数百テラバイトで、処理は週 1 〜 2 回の大規模バッチとして実行されます。処理には高い CPU とメモリのリソースが必要で（1 ジョブあたり数千コア）、処理完了後はリソースを解放してコストをゼロにしたいと考えています。最も適切なアーキテクチャはどれですか？

Accepted Answer

AWS Batch のコンピューティング環境でスポットインスタンスを使用し、ジョブキューからゲノム解析ジョブを処理する。Spot 中断に備えてチェックポイント機能を実装し、Spot Fleet で複数のインスタンスタイプを指定して可用性を高める。S3 にデータを保存し処理後はクラスターが自動的にゼロにスケールする

Answer

AWS Lambda で並列処理を実装し、数千の Lambda 関数を同時実行してゲノム解析を行う

Answer

EC2 On-Demand インスタンスの大型クラスターを 24 時間稼働させ、ジョブが来たら処理を開始する

Answer

Amazon EMR クラスターを常時稼働させ、Spark でゲノム解析を実行する。処理がない時間は最小ノード数で待機させる

同じ分野の関連問題