最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話

📅 2022/12/14 (Wed) 12:00–13:00 (JST)

@ online

🗣️ 平岡達也 / Tatsuya Hiraoka(富士通株式会社 [*前所属の東京工業大学での成果])

2022年4月より現職、富士通株式会社研究員。2022年東京工業大学博士課程修了、博士(工学)。
[Webサイト]

📝 最長一致法のためのサブワード正則化手法(MaxMatch-Dropout)とその周辺の話

概要:本トークでは、主にCOLING2022で発表したMaxMatch-Dropoutという手法について紹介します。本手法はWordPieceのような最長一致法を用いたトークナイザー用のサブワード正則化手法です。通常の最長一致法による分割アルゴリズムを少し修正するだけで、サブワード分割のサンプリングが実現できることを説明します。また、「良い」Tokenizationとはそもそもどんなものなのか、どうやって見つけるとよいだろうか、といった話題にも触れる予定です。
[動画] [スライド] [論文] (COLING 2022)

※トークは日本語です。

🏃‍♀️ 参加方法

参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。

メーリングリスト登録フォーム