概要
SentencePieceは、LLMを含む多くのニューラルNLPモデルに採用されており、トークン化のパラダイムを大きく変えました。 本発表では、MeCabの開発者が、なぜ伝統的な辞書・文法ベースの日本語特化型トークナイではなく、それらとは対局にある言語非依存・多言語トークナイザ SentencePiece を開発したのか、その歴史的背景と経緯について紹介します。
※トークは日本語です。
[GitHubリポジトリ] [論文1] (EMNLP 2018) [論文2] (ACL 2018)