トークン化とSentencePiece: MeCabの開発者はなぜ日本語特化型トークナイザを作らなかったのか

2025/11/19 (Wed) 12:00 (JST)

工藤拓 / Taku Kudo (Google 合同会社)

[Webサイト]

Google 合同会社スタッフソフトウェアエンジニア
http://chasen.org/~taku/

概要

SentencePieceは、LLMを含む多くのニューラルNLPモデルに採用されており、トークン化のパラダイムを大きく変えました。 本発表では、MeCabの開発者が、なぜ伝統的な辞書・文法ベースの日本語特化型トークナイではなく、それらとは対局にある言語非依存・多言語トークナイザ SentencePiece を開発したのか、その歴史的背景と経緯について紹介します。

※トークは日本語です。

[GitHubリポジトリ] [論文1] (EMNLP 2018) [論文2] (ACL 2018)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]