あるコンテンツプラットフォーム企業が、ユーザー投稿を自動審査するシステムを Azure OpenAI Service で構築しています。審査の失敗パターンを分析すると、「暗示的・婉曲的な表現を含む有害コンテンツ(ヘイトスピーチ)」がフィルターをすり抜けるケースが多いことが判明しました。コンテンツフィルターの設定変更と組み合わせて実施すべき最も効果的な追加対策はどれか。
- A. システムプロンプトに「有害なコンテンツを検出したら True を返してください」と記述するだけで精度が向上する
- B. モデルを GPT-3.5 から GPT-4 に切り替えるだけで、婉曲表現の検出能力が大幅に向上する
- C. コンテンツフィルターの全カテゴリを最高厳格度に設定し、それ以上の対策は不要とする
- D. コンテンツフィルターに加え、Azure AI Content Safety の customCategories(カスタムカテゴリ)でプラットフォーム固有の禁止表現・婉曲語のリストを定義し、ヒューマンレビューキューを設けて低確信度の判定ケースを人間が最終判断する
解答と解説を見る
正解: D
Azure AI Content Safety のカスタムカテゴリ機能を使うと、一般的なフィルターでは検出できないプラットフォーム固有の婉曲表現・スラング・文化的に特殊な有害表現をカスタム禁止リストとして定義できます。さらに、AI のみでの判定が困難な境界ケース(低確信度の判定)をヒューマンレビューキューに送ることで、AI と人間の連携による高精度な審査が実現します。選択肢 C の全カテゴリ最高厳格度は偽陽性(正当なコンテンツの誤検出)を増加させ、ユーザー体験を著しく損ないます。選択肢 A のシステムプロンプト記述だけでは婉曲表現への感度は向上せず、一貫した判定も難しいです。選択肢 B はモデルのアップグレードが一定の改善をもたらす可能性はありますが、婉曲表現への対応にはカスタム定義と人間によるレビューが不可欠です。