Question

ある企業が AWS 上でデータレイクを構築しています。様々なソース（オンプレミス DB、SaaS アプリ、IoT センサー、ストリームデータ）から毎日テラバイト規模のデータを取り込み、データサイエンティストと SQL アナリストが独立してアクセスできる環境を提供する必要があります。データカタログ管理と列レベルのアクセス制御が必要で、コストを最小化したいと考えています。最も適切なアーキテクチャはどれですか？

Accepted Answer

Amazon S3 をデータレイクのストレージとして使用し、AWS Glue でデータカタログを管理する。Lake Formation で列レベルのきめ細かいアクセス制御を設定し、データサイエンティストは SageMaker Studio から、SQL アナリストは Amazon Athena からアクセスする。データ取り込みは Glue ETL ジョブ、Kinesis Data Firehose（ストリーム）、AWS DMS（DB）で自動化する

Answer

Amazon Redshift クラスターをデータウェアハウスとして構築し、すべてのソースデータを Redshift に ETL で取り込む。Redshift の列レベルセキュリティでアクセス制御を行う

Answer

Oracle データベースをオンプレミスに維持し、S3 に Parquet 形式でエクスポートしたデータを Athena でクエリする。アクセス制御は S3 バケットポリシーで管理する

Answer

Amazon EMR クラスターに Hive メタストアを構築し、HDFS にデータを保存する。Hive と Spark で分析を行い、列レベルのアクセス制御は Apache Ranger で実装する

同じ分野の関連問題