Amazon Athenaとは
S3上のデータを標準SQLで直接クエリできるサーバーレスのインタラクティブクエリサービス。Presto/Trinoベースでインフラ管理が不要、スキャンしたデータ量に対してのみ課金される。
CSV・JSON・Parquet・ORC・Avroなど多様なフォーマットをサポート。GlueデータカタログをメタデータストアとしてGlue ETLパイプラインと組み合わせるパターンが一般的。
試験での問われ方
「S3上のログやCSVを即席でSQL分析したい」「サーバーレス・スキーマオンリード」のシナリオではAthenaを選ぶ。事前のデータロードが不要な点がRedshiftとの大きな違い。Federated Query(Lambdaコネクタ経由でRDS・DynamoDB・オンプレDBなどS3以外のデータソースも同じSQLで横断的にクエリできる)の存在も押さえる。
Athenaの課金はスキャンしたデータ量に対してなので、コスト削減策がそのまま試験のベストプラクティス問題になる。具体的には、行指向のCSV/JSONよりParquet/ORCなど列指向フォーマットに変換すると必要な列だけ読むためスキャン量が激減し、日付などでパーティションを切ればWHERE句で対象パーティションだけを読むようになる。同じクエリを再実行する場合はクエリ結果の再利用(一定時間内はキャッシュ結果を返しスキャンしない)も効く。
このサービスが登場する演習問題(6問)
- 【CLF-C02】ある企業が、S3に蓄積された大量のログデータに対して、SQLライクなクエリをサーバーなしで実行してコスト効率よく分析した…
- 【SAA-C03】ある企業が、Amazon S3 に保存された数 PB のデータに対してアドホックな SQL クエリを実行するデータレイク…
- 【SAA-C03】ある企業が、AWS の月次コストを詳細に分析したい。各 AWS サービスのリソースレベルの使用量(時間単位)・コスト・割…
- 【SAA-C03】ある企業が、AWS Glue Data Catalog を使って S3 上のデータカタログを管理し、Amazon Ath…
- 【SAP-C02】ある企業が AWS Organizations の一括請求を使って 30 以上のアカウントのコストを管理しています。財務…
- 【SAP-C02】ある企業が AWS 上で高頻度取引(HFT)システムのバックテストプラットフォームを構築しています。10 年分の市場デー…