Transformer言語モデルを内部挙動から理解する

2024/02/07 (Wed) 12:00 (JST)

小林悟郎 (東北大学)

[Webサイト]

東北大学博士課程に在籍中。2022年東北大学修士課程修了。Transformerモデルの分析に関する研究に従事。

概要

Transformer言語モデルの驚異的な性能が注目されている一方で、モデル内部の処理過程や挙動についてはなかなか理解が進んでいません。このトークでは、アテンション重み(Attention weights)を拡張していくことでTransformer言語モデルの内部をより包括的に観察し、Transformerを構成する各モジュール(注意機構、フィードフォワードネット、残差接続、層正規化)について明らかになった特徴的な性質や挙動をご紹介します。

※トークは日本語です。

[スライド] [論文] (ICLR 2024) [関連論文1] (EMNLP 2020) [関連論文2] (EMNLP 2021)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]