ある公共放送局が生放送番組のリアルタイム字幕生成システムを構築したい。音声ストリームをリアルタイムにテキストへ変換し、画面下部に表示する必要がある。Azure AI Speech のどの機能を使うべきか。
- A. 話者認識(Speaker Recognition):音声から話者を識別する
- B. テキスト読み上げ(Text to Speech):テキストを自然な音声に変換する
- C. 音声テキスト変換(Speech to Text):音声をリアルタイムにテキストへ変換する
- D. 音声翻訳(Speech Translation):音声を別の言語のテキストに翻訳する
解答と解説を見る
正解: C
音声テキスト変換(Speech to Text)は音声ストリームをリアルタイムにテキストへ書き起こす機能であり、リアルタイム字幕生成の要件に直接対応する。Azure AI Speech はリアルタイムストリーミング認識と一括転写の両方をサポートする。選択肢Bのテキスト読み上げはテキストから音声を生成する逆方向の機能であり、字幕生成には使えない。選択肢Aの話者認識は誰が話しているかを識別する機能であり、テキスト変換は行わない。選択肢Dの音声翻訳は音声を別言語のテキストに変換するが、同一言語の字幕生成には過剰な機能である。