ある国際会議で英語のプレゼンテーション音声をリアルタイムで日本語テキストとして参加者に表示したい。音声から直接目標言語のテキストを得る必要がある。最適な Azure AI Speech の機能はどれか。
- A. 音声翻訳(Speech Translation):音声をリアルタイムに別言語のテキストまたは音声に翻訳する
- B. 音声テキスト変換(Speech to Text)のみ:英語音声を英語テキストに書き起こす
- C. 話者認識(Speaker Recognition):音声から話者を識別する
- D. テキスト読み上げ(Text to Speech):日本語テキストを音声に変換する
解答と解説を見る
正解: A
音声翻訳(Speech Translation)は音声入力をリアルタイムに認識し、指定した目標言語のテキストまたは音声に翻訳する機能である。英語音声を直接日本語テキストに変換できるため、リアルタイム国際会議字幕の要件に最適である。選択肢Bの音声テキスト変換だけでは英語テキストになるため、別途翻訳ステップが必要になり「直接目標言語テキストを得る」要件を満たさない。選択肢Dのテキスト読み上げは音声生成の機能であり、音声→テキストとは逆方向である。選択肢Aの話者認識は誰が話しているかを識別するだけであり、翻訳や書き起こしは行わない。