東北大学博士課程に在籍中。2022年東北大学修士課程修了。Transformerモデルの分析に関する研究に従事。
[Webサイト]
概要:Transformer言語モデルの驚異的な性能が注目されている一方で、モデル内部の処理過程や挙動についてはなかなか理解が進んでいません。このトークでは、アテンション重み(Attention weights)を拡張していくことでTransformer言語モデルの内部をより包括的に観察し、Transformerを構成する各モジュール(注意機構、フィードフォワードネット、残差接続、層正規化)について明らかになった特徴的な性質や挙動をご紹介します。
[動画] [スライド] [論文] (ICLR 2024) [関連論文1] (EMNLP 2020) [関連論文2] (EMNLP 2021)
※トークは日本語です。
参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。