ある企業がソーシャルメディアの投稿データを収集している。各投稿にはテキスト本文に加え、投稿者がつけたハッシュタグ(0個から複数個)や、メンション先のユーザーID(任意)が含まれており、投稿ごとにこれらのフィールド数と構造が異なる。このデータを最も適切に分類するとどれか。
- A. 非構造化データ:テキストのみで機械的な解析が全くできない生データである
- B. 半構造化データ:ハッシュタグ・メンションなどの可変フィールドをJSONのような形式で柔軟に表現できる
- C. 集計データ:ハッシュタグ数を集計してOLAPキューブに格納する
- D. 構造化データ:全投稿が同じ固定フィールドを持つリレーショナルテーブルで管理できる
解答と解説を見る
正解: B
ハッシュタグが0個から複数個、メンションが任意というように、投稿ごとにフィールドの有無や数が異なるデータは「半構造化データ」に分類される。半構造化データはJSONやXMLのようにキーと値のペアで構造を持ちつつも、スキーマが行によって異なることを許容する。ソーシャルメディアのデータはJSON形式での保存が一般的である。選択肢Dの構造化データは全レコードが同一の固定フィールドを持つことを前提とするが、ハッシュタグが0個〜複数個と可変な本データをリレーショナルテーブルに格納するには多くのNULL列が生まれ非効率である。選択肢Aの非構造化データは音声・画像・自由テキストのように機械的な構造解析が困難なデータを指すが、本データはJSONのようなキーと値の構造を持つため非構造化ではない。選択肢Cの集計データはデータ分析の処理結果を表す概念であり、生データの分類とは別の話である。