Question

ある人事部門が、従業員の勤怠レコードをCSV形式でシステムから出力しているが、データサイエンスチームが大規模な分析で使う際に毎回ほぼすべての列を読み込んでいる。CSVからParquetへの移行を検討する場合、Parquet形式が特に優れている点として最も正確なものはどれか。

Accepted Answer

Parquetは列指向のバイナリ形式で、特定の列だけ読む場合の I/O 削減と高い圧縮率が強みだが、行単位の追記書き込みにはCSVが向いている

Answer

Parquetは行指向形式でトランザクション処理のレスポンスを最適化するために設計されている

Answer

Parquetはテキスト形式のためあらゆるテキストエディタで直接編集できる

Answer

ParquetはSQLを使わずにデータを分析できる独自クエリ言語を内蔵している

同じ分野の関連問題