AWS分析

Amazon Athenaとは

S3上のデータを標準SQLで直接クエリできるサーバーレスのインタラクティブクエリサービス。Presto/Trinoベースでインフラ管理が不要、スキャンしたデータ量に対してのみ課金される。

CSV・JSON・Parquet・ORC・Avroなど多様なフォーマットをサポート。GlueデータカタログをメタデータストアとしてGlue ETLパイプラインと組み合わせるパターンが一般的。

試験での問われ方

「S3上のログやCSVを即席でSQL分析したい」「サーバーレス・スキーマオンリード」のシナリオではAthenaを選ぶ。事前のデータロードが不要な点がRedshiftとの大きな違い。Federated Query(Lambdaコネクタ経由でRDS・DynamoDB・オンプレDBなどS3以外のデータソースも同じSQLで横断的にクエリできる)の存在も押さえる。

Athenaの課金はスキャンしたデータ量に対してなので、コスト削減策がそのまま試験のベストプラクティス問題になる。具体的には、行指向のCSV/JSONよりParquet/ORCなど列指向フォーマットに変換すると必要な列だけ読むためスキャン量が激減し、日付などでパーティションを切ればWHERE句で対象パーティションだけを読むようになる。同じクエリを再実行する場合はクエリ結果の再利用(一定時間内はキャッシュ結果を返しスキャンしない)も効く。

このサービスが登場する演習問題(6問)

関連サービス