ある金融機関が機械学習パイプラインを構築している。データの出所から最終的なモデル予測まで、各処理ステップでのデータの流れを追跡・記録し、将来の監査対応を可能にしたい。この要件を満たすデータガバナンスの概念として最も適切なものはどれか。
- A. データ暗号化(Data Encryption)
- B. データリネージ(Data Lineage)
- C. データ複製(Data Replication)
- D. データパーティショニング(Data Partitioning)
解答と解説を見る
正解: B
データリネージ(Data Lineage)はデータの起源・変換・移動の全経路を追跡・可視化する概念であり、ML パイプラインの各ステップで何がいつ行われたかを記録することで監査証跡を実現する。AWS では SageMaker Lineage Tracking や AWS Glue Data Catalog がこの機能を提供する。Aのデータ暗号化は機密性保護であり、データの流れの追跡とは別の概念。Dのデータパーティショニングはストレージやクエリの最適化手法。Cのデータ複製は可用性・耐障害性のための技術で、いずれもデータの流れを追跡する機能はない。