ある製薬企業が、研究論文から新薬候補の情報を抽出する生成 AI システムを Azure OpenAI Service で構築しています。論文は英語で書かれており、モデルが化学式や薬効に関する専門用語を正確に扱えるよう調整が必要です。また、新しい論文が毎週追加されます。最もコスト効率よく精度を維持できるアーキテクチャはどれか。
- A. GPT-4 を製薬用語データセットでファインチューニングし、新論文が追加されるたびに毎週再トレーニングする
- B. Azure AI Foundry のプロンプトフローで専門用語辞書を毎回全件プロンプトに含めてモデルに送信する
- C. 専門用語と化学式の例を含む Few-shot プロンプティングと、Azure AI Search を使った RAG でリアルタイムに最新論文を検索する構成
- D. 論文 PDF をすべてシステムプロンプトに含め、1 回のリクエストですべての情報を処理する
解答と解説を見る
正解: C
Few-shot プロンプティングで専門用語・化学式の処理パターンをモデルに示しつつ、Azure AI Search で最新の論文インデックスから関連コンテキストを RAG で取得する構成が最もコスト効率と精度のバランスに優れています。新論文はインデックスの更新のみで対応できるため、毎週追加の要件にも低コストで対応可能です。選択肢 A のファインチューニングは初期コストが高く、毎週の再トレーニングは運用コスト・工数ともに大きくなります。ファインチューニングは知識の最新化よりも文体・形式・特定ドメインの出力パターン調整に向いています。選択肢 B の辞書全件プロンプト送信は辞書が大きくなるにつれてトークンコストが膨大になります。選択肢 D は論文数が増えるにつれてコンテキスト上限を超え、現実的ではありません。