ある企業が、IoT センサーから毎秒数万件のイベントデータ(センサーID、タイムスタンプ、温度値、異常フラグ)を収集するシステムを設計している。このデータの保存形式として適切なものを2つ選択してください。
- A. Word 文書(.docx):ヘッダーと本文のリッチテキスト形式でセンサーログを記録する
- B. CSV:テキストベースで人間が読めるが、タイムスタンプ精度の表現や圧縮効率に課題がある
- C. Parquet:列指向の圧縮フォーマットで、同種の値が並ぶ時系列データの圧縮率が高い
- D. PowerPoint(.pptx):スライド形式でセンサーデータのグラフを自動生成して保存する
- E. JSON Lines(.jsonl):1行1イベントのJSON形式でスキーマの柔軟性を保ちながら高速書き込みができる
解答と解説を見る
正解: C, E
IoTセンサーの大量イベントデータには「Parquet」と「JSON Lines」が適切な選択肢である。Parquetは列指向の圧縮バイナリ形式で、センサーID・温度値のような同じデータ型が並ぶ列は非常に高い圧縮率を実現し、後の分析処理でも列プルーニングが有効に機能する。JSON Lines(.jsonl)は1行に1つのJSONオブジェクトを記述する形式で、スキーマが柔軟(異常フラグの有無など)で高速に追記書き込みができ、各種ストリーミング処理ツールとの親和性が高い。選択肢BのCSVはテキスト形式のため可読性は高いが、マイクロ秒精度のタイムスタンプ表現に曖昧さがあり、圧縮効率もParquetに劣るため毎秒数万件の大規模IoTデータには不向きである。選択肢AのWord文書(.docx)はワープロ文書形式でセンサーデータの格納に用いるものではなく、機械処理も困難である。選択肢DのPowerPoint(.pptx)はプレゼンテーション形式であり、時系列データの格納・分析用途には全く不適切である。