ある企業が、顧客の購買履歴データを格納するファイル形式を検討している。データサイエンティストが大規模な機械学習の特徴量エンジニアリングで使用する予定で、列単位でのフィルタリングと圧縮効率を最優先したい。最も適切なファイル形式はどれか。
- A. Parquet:列指向の圧縮フォーマットで、列単位の読み取りと圧縮に最適化されている
- B. CSV:汎用的なテキスト形式で、あらゆるツールとの互換性が高い
- C. XML:タグベースの階層構造で、データ検証にスキーマ定義が使える
- D. JSON:階層構造を持つキーと値のペアで柔軟なスキーマを表現できる
解答と解説を見る
正解: A
列単位のフィルタリングと圧縮効率を最優先する場合、「Parquet」が最も適切なファイル形式である。Parquetは列指向(カラムナー)のバイナリ形式で、使用する列だけを読み込む列プルーニングが可能であり、同じデータ型が連続する列は高い圧縮率を実現する。大規模データの機械学習前処理に広く採用されている。選択肢BのCSVは行指向のテキスト形式で、特定列だけを効率的に読み取ることができず、圧縮率もParquetに劣る。互換性は高いが大規模分析には不向き。選択肢DのJSONは階層・配列構造に優れ、半構造化データの保存に適しているが、列指向ではなく圧縮効率も低い。選択肢CのXMLはタグのオーバーヘッドが大きく、ファイルサイズが膨らみやすいため、大規模データ分析での圧縮効率・処理速度でParquetに大きく劣る。