NLPコロキウム | Unlearning Traces the Influential Training Data of Language Models (磯沼大)

磯沼大 / Masaru Isonuma (University of Edinburgh)

[Webサイト]

エジンバラ大学日本学術振興会海外特別研究員。2021年東京大学大学院工学系研究科博士課程修了。東京大学大学院工学系研究科特任研究員及び特任助教を経て、2023年より現職。

概要

ある言語モデルの高い能力を発揮させ、かつ有害な生成を抑えるには、その原因となる学習データの特定が不可欠です。理想的には、あるデータを除いて学習したモデルと全データを学習したモデルを比較することでその学習データの影響を測ることができますが（leave-dataset-out）、計算コストが膨大になり現実的ではありません。本トークでは、学習データを除く代わりに、学習済モデルからデータを逆学習してその影響を測るUnTracという手法について説明します。UnTracは極めて単純で、勾配上昇法で学習データを忘却させ、逆学習後のモデルの性能が悪化するほどその学習データの影響が大きいと推定します。更により効率的な方法として、学習済モデルから評価データを逆学習し学習データで評価するUnTrac-Invという手法を導入し、UnTracを近似できることを示します。本トークではこれらの手法の着想に至った経緯や、逆学習とleave-dataset-outの関係、既存の学習データ影響推定手法との関係についてお話ししたいと思います。

※トークは日本語です。

[動画] [スライド] [論文] (ACL 2024)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。