Transformerの学習理論: In-context learningにおける汎化と最適化の理論

2024/09/25 (Wed) 12:00–13:30 (JST)

鈴木大慈 / Taiji Suzuki (東京大学)

[Webサイト]

東京大学大学院情報理工学系研究科数理情報学専攻教授および理化学研究所・革新知能統合研究センター・深層学習理論チーム・チームリーダー.深層学習を含む様々な学習機構について理論的側面から研究を進めている.より少ないデータでより精度良く学習するにはどうすればよいか.学習理論を通じて各種学習手法の性能を解明し複雑な学習過程の本質への理解を深め,さらに理論をもとに新しい機械学習手法の構築や応用への還元を行っている.また,確率的最適化などの方法論により大規模かつ複雑な機械学習問題を効率的に解く手法の開発も行っている.

概要

In-context leaningを主たる題材として,Transformerの学習能力を理論的に明らかにする最近の理論研究を紹介する.まず表現力の理論として,Transformerは非等方的滑らかさを持つ関数を近似できること,および自己回帰的データを学習できることを紹介する.同様の結果が状態空間モデルを用いても実現できることを紹介する.次に最適化理論として,非線形特徴学習の最適化が可能であることを示し,真の関数の情報指数によって計算効率が評価できることを示す.時間があれば,統計理論としてin-context learningにおいてminimax最適性を満たすことも紹介する.

※トークは日本語です。

[スライド] [論文1] (ICML 2024) [論文2] (ICML 2024) [論文3] (NeurIPS 2024) [論文4]

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]