Question

ある企業が、Amazon S3 に保存された数 PB のデータに対してアドホックな SQL クエリを実行するデータレイクを構築したい。クエリのコストを最小限に抑えながら、パフォーマンスを向上させるためのベストプラクティスを 2 つ選択してください。

Accepted Answer

S3 のデータをデータの属性（日付・地域等）でパーティション分割して保存し、Athena クエリで WHERE 句にパーティションキーを指定してスキャン量を削減する。

Accepted Answer

S3 のデータを Apache Parquet または ORC などの列指向フォーマットで保存し、クエリが必要な列のみを読み取れるようにする。

Answer

すべてのデータを CSV 形式で保存し、Amazon Athena で全列クエリを実行する。

Answer

Amazon Redshift にすべてのデータをロードし、すべての SQL クエリを Redshift で実行する。

Answer

Athena クエリのすべての結果を EC2 インスタンスのメモリにキャッシュする。

同じ分野の関連問題