Question

あるコンテンツプラットフォーム企業が、ユーザー投稿を自動審査するシステムを Azure OpenAI Service で構築しています。審査の失敗パターンを分析すると、「暗示的・婉曲的な表現を含む有害コンテンツ（ヘイトスピーチ）」がフィルターをすり抜けるケースが多いことが判明しました。コンテンツフィルターの設定変更と組み合わせて実施すべき最も効果的な追加対策はどれか。

Accepted Answer

コンテンツフィルターに加え、Azure AI Content Safety の customCategories（カスタムカテゴリ）でプラットフォーム固有の禁止表現・婉曲語のリストを定義し、ヒューマンレビューキューを設けて低確信度の判定ケースを人間が最終判断する

Answer

システムプロンプトに「有害なコンテンツを検出したら True を返してください」と記述するだけで精度が向上する

Answer

モデルを GPT-3.5 から GPT-4 に切り替えるだけで、婉曲表現の検出能力が大幅に向上する

Answer

コンテンツフィルターの全カテゴリを最高厳格度に設定し、それ以上の対策は不要とする

同じ分野の関連問題