あるスタートアップが新しい画像認識タスク向けのモデルを開発しています。社内にラベル付き画像データが2,000枚しかなく、ゼロからモデルをトレーニングするには不十分です。コストと開発期間を最小限に抑えながら精度を確保したい場合、最も適切なアプローチはどれですか。
- A. データが十分になるまで機械学習の導入を延期し、データ収集に注力する
- B. 2,000枚のデータのみを使用してモデルをゼロから完全にトレーニングする
- C. ラベルなしデータを大量収集し、クラスタリングのみで分類システムを構築する
- D. 大規模データセットで事前学習済みのモデルを取得し、自社データで転移学習(ファインチューニング)を行う
解答と解説を見る
正解: D
転移学習(ファインチューニング)は、大規模データで学習済みのモデルが持つ汎用特徴表現を活用し、少量の固有データで高精度を実現する手法です。2,000枚のような少量データでも有効に機能し、ゼロからのトレーニングに比べてコストと時間を大幅に削減できます。ゼロからのトレーニングは数千〜数万枚規模のデータが必要であり、2,000枚では著しく過学習しやすくなります。データ収集のみへの注力は開発期間を延長するため、コストと開発期間の最小化という要件を満たしません。クラスタリングは教師なし手法であり、ラベルのある分類タスクに対して精度は著しく劣ります。