ある医療機関が、患者ごとに異なる検査項目を記録するシステムを検討している。ある患者には血圧・血糖値のみが記録され、別の患者には血圧・血糖値・心電図データ・アレルギー情報が記録されるなど、レコードごとにフィールドの種類と数が異なる。このデータに最も適したデータ分類はどれか。
- A. 半構造化データ:レコードごとに異なるフィールドをキーと値の形式で柔軟に表現する
- B. 集計データ:OLAP キューブに格納してドリルダウン分析を可能にする
- C. 非構造化データ:スキーマを持たない生のバイナリデータとして保存する
- D. 構造化データ:固定のリレーショナルスキーマで全フィールドを管理する
解答と解説を見る
正解: A
患者ごとに検査項目の種類と数が異なるというシナリオは「半構造化データ」の典型例である。半構造化データはJSONやXMLのようなキーと値の形式を用い、レコードごとにフィールドが異なることを許容する柔軟なスキーマを持つ。選択肢Dの構造化データは全レコードが同じ固定フィールドを持つことを前提とするため、フィールド数が患者によって異なる本ケースでは多数のNULLが生まれ非効率となる。選択肢Cの非構造化データはスキーマを持たず、機械的な解析が困難な画像・音声・テキスト文書などに適する概念で、キーと値の構造を持つ本データとは異なる。選択肢Bの集計データ・OLAPキューブはデータの分析処理方式の説明であり、生データの分類ではない。