DP-900コアデータ概念EASY単一選択

ある企業がソーシャルメディアの投稿データを収集している。各投稿にはテキスト本文に加え、投稿者がつけたハッシュタグ（0個から複数個）や、メンション先のユーザーID（任意）が含まれており、投稿ごとにこれらのフィールド数と構造が異なる。このデータを最も適切に分類するとどれか。

A. 非構造化データ：テキストのみで機械的な解析が全くできない生データである
B. 半構造化データ：ハッシュタグ・メンションなどの可変フィールドをJSONのような形式で柔軟に表現できる
C. 集計データ：ハッシュタグ数を集計してOLAPキューブに格納する
D. 構造化データ：全投稿が同じ固定フィールドを持つリレーショナルテーブルで管理できる

解答と解説を見る

正解: B

ハッシュタグが0個から複数個、メンションが任意というように、投稿ごとにフィールドの有無や数が異なるデータは「半構造化データ」に分類される。半構造化データはJSONやXMLのようにキーと値のペアで構造を持ちつつも、スキーマが行によって異なることを許容する。ソーシャルメディアのデータはJSON形式での保存が一般的である。選択肢Dの構造化データは全レコードが同一の固定フィールドを持つことを前提とするが、ハッシュタグが0個〜複数個と可変な本データをリレーショナルテーブルに格納するには多くのNULL列が生まれ非効率である。選択肢Aの非構造化データは音声・画像・自由テキストのように機械的な構造解析が困難なデータを指すが、本データはJSONのようなキーと値の構造を持つため非構造化ではない。選択肢Cの集計データはデータ分析の処理結果を表す概念であり、生データの分類とは別の話である。

▸ この試験を本気で演習する（全150問・無料）

同じ分野の関連問題