トークン化とSentencePiece: MeCabの開発者はなぜ日本語特化型トークナイザを作らなかったのか

📅 2025/11/19 (Wed) 12:00–13:00 (JST)

@ online

🗣️ 工藤拓 / Taku Kudo(Google 合同会社)

Google 合同会社スタッフソフトウェアエンジニア
[Webサイト]

📝 トークン化とSentencePiece: MeCabの開発者はなぜ日本語特化型トークナイザを作らなかったのか

概要:SentencePieceは、LLMを含む多くのニューラルNLPモデルに採用されており、トークン化のパラダイムを大きく変えました。 本発表では、MeCabの開発者が、なぜ伝統的な辞書・文法ベースの日本語特化型トークナイザではなく、それらとは対極にある言語非依存・多言語トークナイザ SentencePiece を開発したのか、その歴史的背景と経緯について紹介します。
[GitHubリポジトリ] [論文1] (EMNLP 2018) [論文2] (ACL 2018)

※トークは日本語です。

🏃‍♀️ 参加方法

参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。

メーリングリスト登録フォーム