Question

あるデータエンジニアが機械学習パイプラインを設計しています。モデルの精度に最も大きく影響するフェーズとして、現場のデータサイエンティストが「データの質と前処理が8割以上を決める」と言われています。この考え方を最もよく反映している MLのベストプラクティスはどれですか。

Accepted Answer

「ゴミを入れればゴミが出る（Garbage In, Garbage Out）」の原則に従い、データ品質と前処理に最大の注力をする

Answer

モデルアーキテクチャの選択が精度を決定するため、最新のアーキテクチャを常に採用する

Answer

ハイパーパラメータチューニングは自動化しているため、データ品質への投資よりも計算資源を優先する

Answer

クラウドサービスの活用により前処理コストは無視できるため、データの量のみを重視する

同じ分野の関連問題