Question

ある企業が AWS 上で高頻度取引（HFT）システムのバックテストプラットフォームを構築しています。10 年分の市場データ（数十テラバイトの Parquet ファイル）を S3 に格納し、クアンツアナリストが複雑な SQL クエリで任意の期間・銘柄のデータを対話的に分析します。クエリレイテンシーは数秒以内が要件で、使わない時間のコストは最小化したいと考えています。最も適切なアーキテクチャはどれですか？

Accepted Answer

Amazon Athena と AWS Glue Data Catalog を使用する。Parquet ファイルをパーティション（年月日・銘柄）で整理し、Athena の SQL クエリでクエリ時課金の従量制で分析する。頻出クエリパターンには Athena の結果キャッシュを活用し、Parquet + Snappy 圧縮でスキャンデータ量を最小化する

Answer

Amazon Redshift のプロビジョニングクラスターに全データをロードし、常時稼働させる

Answer

全データを DynamoDB にロードし、パーティションキーとソートキーで高速クエリを実現する

Answer

Amazon EMR クラスターを常時稼働させ、Spark SQL でクエリを処理する

同じ分野の関連問題