Pre-tokenization of Multi-word Expressions in Cross-lingual Word Embeddings

2021/03/10 (Wed) 12:00 (JST)

大谷直樹 / Naoki Otani (Carnegie Mellon University)

[Webサイト]

Naoki Otani is a second-year Ph.D. student in the Language Technologies Institute at Carnegie Mellon University. He is working on semantic representations of sentences and words with Prof. Eduard Hovy and Prof. Lori Levin. His research interests include common-sense knowledge acquisition and reasoning and cross-lingual word representations. He received his M.S. and B.S. from Kyoto University.

概要

本発表では複合語表現 (multi-word expressions) に焦点を当てつつ、これまでの多言語単語ベクトル研究の問題点について議論する。多言語単語ベクトルは、複数の言語について、似た意味の単語同士が似たベクトルを持つように学習された実数ベクトル表現であるが、そこでどれだけうまく単語の意味の類似度を表現できるかは、我々がいかに「単語」を定義し分割するかに左右される。言語間の翻訳を考えた場合、ある言語の一単語が他の言語の複合語表現に対応することは頻繁に起こるが、この現象はこれまでの多言語単語ベクトル研究の対象にはされてこなかった。本研究では、複合語表現が多言語単語ベクトルの学習や評価にどのような問題を起こしていたかを議論し、前処理として複合語表現を予め一つのトークンで表しておくだけでそれらが30%から60%のTop-10精度で適切な訳語に対応付けできることを示す。

※トークは日本語です。

[動画1] [動画2] [論文] (EMNLP 2020)

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]