AIF-C01AI と ML の基礎MEDIUM単一選択

あるデータエンジニアが機械学習パイプラインを設計しています。モデルの精度に最も大きく影響するフェーズとして、現場のデータサイエンティストが「データの質と前処理が8割以上を決める」と言われています。この考え方を最もよく反映している MLのベストプラクティスはどれですか。

  1. A. モデルアーキテクチャの選択が精度を決定するため、最新のアーキテクチャを常に採用する
  2. B. ハイパーパラメータチューニングは自動化しているため、データ品質への投資よりも計算資源を優先する
  3. C. 「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」の原則に従い、データ品質と前処理に最大の注力をする
  4. D. クラウドサービスの活用により前処理コストは無視できるため、データの量のみを重視する
解答と解説を見る

正解: C

機械学習における「Garbage In, Garbage Out(GIGO)」の原則は、入力データの品質が低ければどれほど優れたモデルアーキテクチャやアルゴリズムを使ってもモデルの性能は上がらないことを示します。実務では、データ収集・クレンジング・前処理・特徴エンジニアリングにプロジェクト全体の時間とコストの60〜80%が費やされるとも言われています。最新のアーキテクチャ採用は有効ですが、データ品質の問題を克服することはできません。ハイパーパラメータチューニングの自動化は有用ですが、元データが不良であれば最適化の意味は薄れます。データ量の増加も有益ですが、ノイズや誤ラベルが多いデータを大量に使ってもモデルは改善しません。

▸ この試験を本気で演習する(全150問・無料)