Zipf白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数

2024/11/20 (Wed) 12:00 (JST)

横井祥 / Sho Yokoi (東北大学)

[Webサイト]

東北大学大学院情報科学研究科助教。2020年東北大学大学院情報科学研究科博士課程修了、のち現職。理化学研究所AIPセンター客員研究員兼任。自然言語処理と表現学習、とくにコーパスが持つ統計的特徴と表現空間が持つ幾何的特徴に基づいて言葉の意味の計算をする研究に従事。

概要

ほとんどのクラスのニューラル言語モデルで単語の埋め込み空間が歪んでいること、またこれを補正することで後段タスクの性能が向上することが知られています。注目したいのは、既存の手法群は暗黙的に単語頻度を一様だと仮定しており、つまりべき分布(いわゆるジップ則)に従う実際の頻度分布とは大きく乖離していることです。解消するのは簡単で、「期待値を計算する際は単語頻度を考慮すべし」という指針を導入するだけです。これにより既存手法よりもはるかに良好に空間の歪みを測定・補正することができるようになります。実は、単語頻度が一様だという仮定は単語の「タイプ」に注目することに対応し、経験的な単語頻度を考えることは単語の「トークン」に注目することに対応します。この区別を念頭に置くと、白色化で何が起きているのか、単語埋め込み空間にどんな情報が乗るか、表現学習のための損失関数がどういう特徴を持つか、といった様々な特徴がすべて大きなふたつのクラスに分かれることがわかります。単語頻度で重み付けるアプローチ、つまりトークンに注目するアプローチがなぜ良いかを一言で述べれば、情報を持つ語を強調することができるからだと分かります。また、この見方を使えば、この10年の間に提案されてきた著名なモデルの性能の良さについても統一的に理解することができるようになります。

※トークは日本語です。

[スライド] [論文] (NeurIPS 2024) [論文2] (EMNLP 2023) [論文3] (Findings of EMNLP 2023)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]