渡部晋治 / Shinji Watanabe (Carnegie Mellon University)
[Webサイト]平 13 早大大学院修士課程了.NTT コミュニケーション科学基礎研究所,Mitsubishi Electric Research Laboratories(MERL), Johns Hopkins 大を経て,現在カーネギーメロン大准教授.博士(工学).
概要
音声言語処理研究の究極の目標の一つは、地球上に存在する7,000以上の全ての言語へのアクセスを可能にすることである。本研究はその目標への第一歩として、4,000言語・100万時間の音声データを用いた自己教師あり学習の試みを紹介する。既存の大規模音声コーパスに加え、新たに作成した7,000時間分の4,000言語の音声データを組み合わせることで、この音声データセットを構築した。また、学習過程において、従来の雑音抑圧に加え、残響除去を模擬した処理を導入することで、従来手法を上回る頑健な音声表現の自己教師あり学習を実現した。その結果、本モデルは多言語音声認識評価指標であるML-SUPERBにおいて、Meta社が提案するMMS 1Bやw2v-BERT 2.0 v2を超える世界最高性能を達成した。特に注目すべき点は、これらすべての技術がオープンソースと公開データを基盤としており、高い再現性と透明性を備えていることである。また、このような大規模基盤モデルが学術研究機関の力だけで構築された点も重要である。本講演では、この成果を達成する過程での経験、苦労、得られた知見、そして裏話についても紹介する。
※トークは日本語です。