Unlearning Traces the Influential Training Data of Language Models

2024/07/03 (Wed) 18:00 (JST)

磯沼大 / Masaru Isonuma (University of Edinburgh)

[Webサイト]

エジンバラ大学 日本学術振興会海外特別研究員。2021年東京大学大学院工学系研究科博士課程修了。東京大学大学院工学系研究科特任研究員及び特任助教を経て、2023年より現職。

概要

ある言語モデルの高い能力を発揮させ、かつ有害な生成を抑えるには、その原因となる学習データの特定が不可欠です。理想的には、あるデータを除いて学習したモデルと全データを学習したモデルを比較することでその学習データの影響を測ることができますが(leave-dataset-out)、計算コストが膨大になり現実的ではありません。本トークでは、学習データを除く代わりに、学習済モデルからデータを逆学習してその影響を測るUnTracという手法について説明します。UnTracは極めて単純で、勾配上昇法で学習データを忘却させ、逆学習後のモデルの性能が悪化するほどその学習データの影響が大きいと推定します。更により効率的な方法として、学習済モデルから評価データを逆学習し学習データで評価するUnTrac-Invという手法を導入し、UnTracを近似できることを示します。本トークではこれらの手法の着想に至った経緯や、逆学習とleave-dataset-outの関係、既存の学習データ影響推定手法との関係についてお話ししたいと思います。

※トークは日本語です。

[動画] [スライド] [論文] (ACL 2024)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]