出口祥之 / Hiroyuki Deguchi (NTT)
[Webサイト]愛媛大学工学部卒業、同大学理工学研究科修士課程卒業、奈良先端大自然言語処理学研究室(渡辺研)博士課程卒業、情報通信研究機構研究技術員を経て、2024年10月よりNTTコミュニケーション科学基礎研究所で機械翻訳や自然言語処理などの研究に従事。主に、機械翻訳、テキスト生成アルゴリズム、近似近傍探索などの研究に取り組んできた。
概要
用例や言語現象をコーパスから素早く探し出すgrepなどのパターン検索は、コーパスと人間をつなぐための基本的で重要な道具である。しかし、既存の文字列一致に基づくパターン検索では、表記揺れや類義語といった表層の変化を捉えることは難しい。近年では、文埋め込みを用いた密ベクトル検索も注目を集めており、意味的に類似したテキストを粗く検索できるが、具体的なクエリの出現位置の特定や列挙といった操作は困難である。本発表では、単語埋め込みを用いた柔らかいパターンマッチャーSoftMatchaを紹介する。柔らかいパターン検索に向けて転置索引を拡張した提案アルゴリズムにより、10億単語規模の巨大なコーパスに対して、柔らかくも高速に検索でき、マッチした箇所・スパンの全列挙までできる。コーパス中の有害事例の列挙や、形態論的に複雑な特徴を持つ言語に対する用例検索を通して、SoftMatchaの有用性を実験的にも確認した。
※トークは日本語です。