AIF-C01基盤モデルの応用HARD単一選択

ある製薬会社が自社の医薬品承認文書(数千件)を使って Amazon Bedrock のモデルをカスタマイズし、社内専門用語や文書フォーマットを正確に扱えるようにしたい。データは十分にあるが、文書のラベル付け(正解ペアの作成)は非常に高コスト。最も適切なカスタマイズ手法はどれか。

  1. A. 継続事前学習(Continued Pre-training)で承認文書コーパスを入力としてモデルに言語パターンを学習させる
  2. B. Few-shot プロンプティングでサンプル文書を毎回プロンプトに含める
  3. C. RAG で承認文書をベクトルDBに格納し、クエリ時に関連文書を参照させる
  4. D. ファインチューニング(Supervised Fine-Tuning)で大量のプロンプト+回答ペアを学習させる
解答と解説を見る

正解: A

継続事前学習(Continued Pre-training)はラベルなしのテキストコーパスをそのまま入力として、モデルに特定ドメインの言語パターン・専門用語・文書構造を学習させる手法。正解ペアが不要なため「ラベル付けが高コスト」という本問の制約に最も合致する。医薬品承認文書のような専門的な語彙・文体が大量にある場合に有効。Dのスーパーバイズドファインチューニングはプロンプトと正解回答のペア(ラベル付きデータ)が必要であり、コスト制約の問題が解決しない。Cの RAG は追加学習なしで文書参照ができる軽量な選択肢だが、専門用語の「理解」や文書フォーマットへの適応という本問の目的には継続事前学習のほうが本質的に適合する。Bのfew-shot はラベル不要だがコンテキスト長に制限があり、数千件の文書に含まれるパターン全体を学習させることはできない。

▸ この試験を本気で演習する(全150問・無料)