AIF-C01AI と ML の基礎MEDIUM単一選択

あるスタートアップが新しい画像認識タスク向けのモデルを開発しています。社内にラベル付き画像データが2,000枚しかなく、ゼロからモデルをトレーニングするには不十分です。コストと開発期間を最小限に抑えながら精度を確保したい場合、最も適切なアプローチはどれですか。

  1. A. データが十分になるまで機械学習の導入を延期し、データ収集に注力する
  2. B. 2,000枚のデータのみを使用してモデルをゼロから完全にトレーニングする
  3. C. ラベルなしデータを大量収集し、クラスタリングのみで分類システムを構築する
  4. D. 大規模データセットで事前学習済みのモデルを取得し、自社データで転移学習(ファインチューニング)を行う
解答と解説を見る

正解: D

転移学習(ファインチューニング)は、大規模データで学習済みのモデルが持つ汎用特徴表現を活用し、少量の固有データで高精度を実現する手法です。2,000枚のような少量データでも有効に機能し、ゼロからのトレーニングに比べてコストと時間を大幅に削減できます。ゼロからのトレーニングは数千〜数万枚規模のデータが必要であり、2,000枚では著しく過学習しやすくなります。データ収集のみへの注力は開発期間を延長するため、コストと開発期間の最小化という要件を満たしません。クラスタリングは教師なし手法であり、ラベルのある分類タスクに対して精度は著しく劣ります。

▸ この試験を本気で演習する(全150問・無料)