Question

ある大手小売チェーンが、全国 300 店舗のPOSシステムから1日に約5,000万件の取引レコードを生成している。このデータを「過去3年分（合計約550億件）の取引を使って、来年の商品カテゴリ別需要を地域×季節×プロモーションの3軸で予測するモデルをトレーニングしたい」という要件がある。このユースケースで最も適したデータ処理とファイル形式の組み合わせはどれか。

Accepted Answer

バッチ処理 ＋ Parquet：大量の履歴データを列指向圧縮形式に変換して効率的に保存し、機械学習フレームワークが列プルーニングで必要列だけを読み込む

Answer

ストリーミング処理 ＋ JSON：各取引をリアルタイムJSONで保存してMLパイプラインに直接投入する

Answer

バッチ処理 ＋ XML：履歴データをXMLタグで構造化してモデルトレーニング用のスキーマを明確にする

Answer

ストリーミング処理 ＋ CSV：POSデータをリアルタイムで処理してCSVに逐次書き出し、モデルトレーニングに使用する

同じ分野の関連問題