SAP-C02新しいソリューションのための設計HARD単一選択

ある企業が AWS 上で高頻度取引(HFT)システムのバックテストプラットフォームを構築しています。10 年分の市場データ(数十テラバイトの Parquet ファイル)を S3 に格納し、クアンツアナリストが複雑な SQL クエリで任意の期間・銘柄のデータを対話的に分析します。クエリレイテンシーは数秒以内が要件で、使わない時間のコストは最小化したいと考えています。最も適切なアーキテクチャはどれですか?

  1. A. Amazon Redshift のプロビジョニングクラスターに全データをロードし、常時稼働させる
  2. B. 全データを DynamoDB にロードし、パーティションキーとソートキーで高速クエリを実現する
  3. C. Amazon EMR クラスターを常時稼働させ、Spark SQL でクエリを処理する
  4. D. Amazon Athena と AWS Glue Data Catalog を使用する。Parquet ファイルをパーティション(年月日・銘柄)で整理し、Athena の SQL クエリでクエリ時課金の従量制で分析する。頻出クエリパターンには Athena の結果キャッシュを活用し、Parquet + Snappy 圧縮でスキャンデータ量を最小化する
解答と解説を見る

正解: D

Athena はサーバーレスでスキャンデータ量に対する従量課金のため、使わない時間のコストが完全にゼロです。Parquet 形式と Snappy 圧縮でデータサイズを削減しスキャンコストを最小化できます。Glue Data Catalog でメタデータ管理、パーティションプルーニングで対象データのみをスキャンすることで数秒以内のレイテンシーも達成可能です。 A: Redshift の常時稼働はクエリ性能には優れますが、使用しない時間もクラスターコストが発生し「コスト最小化」要件に反します。Redshift Serverless を使えば改善しますが、Athena よりコストが高くなります。 C: EMR の常時稼働も同様に、アイドル時のクラスターコストが発生します。 B: DynamoDB はリレーショナルな複雑な SQL クエリや大量の Parquet データのフルスキャン分析には設計されていません。

▸ この試験を本気で演習する(全150問・無料)