概要
Transformer言語モデルの驚異的な性能が注目されている一方で、モデル内部の処理過程や挙動についてはなかなか理解が進んでいません。このトークでは、アテンション重み(Attention weights)を拡張していくことでTransformer言語モデルの内部をより包括的に観察し、Transformerを構成する各モジュール(注意機構、フィードフォワードネット、残差接続、層正規化)について明らかになった特徴的な性質や挙動をご紹介します。
※トークは日本語です。
[動画] [スライド] [論文] (ICLR 2024) [関連論文1] (EMNLP 2020) [関連論文2] (EMNLP 2021)