ある企業が生成 AI モデルのファインチューニングを検討している。保有するトレーニングデータは 500 件の例文しかない。この状況でファインチューニングを実施した場合に最も発生しやすい問題はどれか。また、その問題を緩和するための最も適切な代替アプローチはどれか。
- A. 過学習(Overfitting)が発生し、トレーニングデータに過度に適合して汎化性能が低下する。Few-shot プロンプティングまたは RAG による対応が適切
- B. 500 件のデータでファインチューニングすると、元モデルの知識が完全に上書きされて使えなくなる
- C. データ量が少ないほどモデルが速く収束するため、500 件は理想的なデータ量である
- D. ファインチューニングではなく、モデルをゼロから事前学習(Pre-training)する方が 500 件では効果的である
解答と解説を見る
正解: A
ファインチューニングに必要なデータ量は一般に数千〜数万件とされており、500 件は過学習のリスクが高い。過学習したモデルはトレーニング例の丸暗記に近くなり、未見データへの汎化ができなくなる。Few-shot プロンプティングは追加学習なしに例示でモデルを誘導でき、RAG は外部知識で補完できるため、少量データ環境での現実的な代替策。Cは誤り:データ量が少ないことは過学習リスクを高めるためデメリットであり、少量が理想というのは誤り。Dは誤り:ゼロからの事前学習は数十億トークン規模のデータと膨大な計算コストが必要であり、500 件では更に不適切。Bは誤り:ファインチューニングは事前学習の知識を保持したまま特定タスクへ適応させる手法であり、元の知識が完全に消えることはない(ただしカタストロフィック・フォーゲッティングの問題はある)。