概要
End-to-End音声認識では、音声からテキストへの直接変換を、単一の深層ニューラルネットワークを用いて実現することを目的とする。このとき、正確なテキストを生成するには出力単語間の依存性をいかに捉えるかが鍵となるが、これを音声情報から抽出するのは容易でない。ある発話音声に対して「あめ」という音を認識するだけでは不十分であり、その音が「雨」と「飴」のどちらを意図しているのかについても、文脈に応じて推定する必要がある。本発表では、汎用言語モデルであるBERTから得られる文脈情報を音声処理の過程に明示的に組み込むことで、End-to-End音声認識の精度が向上することを示す。また、汎用言語モデルと音声認識で扱われるテキストの違い(語彙の違い、句読点や大文字・小文字の有無など)を解消するための手法を検討し、それによる改善効果についても紹介する。
※トークは日本語です。
[動画] [スライド] [論文1] (Findings of EMNLP 2022) [論文2] (ICASSP 2023)