単一のhubテキストがCLIPを壊す: hubnessによる埋め込みの脆弱性特定

📅 2026/06/24 (Wed) 12:00–13:00 (JST)

@ online

🗣️ 出口祥之 / Hiroyuki Deguchi(NTTコミュニケーション科学基礎研究所)

愛媛大学工学部卒業、同大学理工学研究科修士課程卒業、奈良先端大自然言語処理学研究室(渡辺研)博士課程卒業、情報通信研究機構研究技術員を経て、2024年10月よりNTTコミュニケーション科学基礎研究所で機械翻訳や自然言語処理などの研究に従事。主に、機械翻訳、テキスト生成アルゴリズム、高速検索技術などの研究に取り組んでいる。
[Webサイト]

📝 単一のhubテキストがCLIPを壊す: hubnessによる埋め込みの脆弱性特定

概要:ベクトル間の距離の近さでデータ間の意味的類似度を表現できる「埋め込み」は、テキスト同士の意味の近さを測ったり、画像・テキストといったモダリティをまたいだ検索などに、広く利用されている。しかし、ときどき、意味的に無関係にもかかわらず多くのデータと不当に高い類似度を示す単一のベクトル「hub」が現れることがあり、問題となっている。たとえば、情報検索においてデータベース中にhubに埋め込まれるようなデータが含まれると、ユーザがどんなクエリで検索しても常に無関係な検索結果が返ってきてしまう。ただ、hubの基本的な性質はいまだあまり解明されておらず、「具体的にどんなデータがhubになるのか?」「どんな埋め込みモデルでもhubは発生するのか?」といったことすら明らかでない。本研究では、hubの性質解明に向け、hubとなるようなテキストの探索法を提案し、10モデルにわたって挙動を分析する。MSCOCOとnocapsを用いた画像キャプション評価実験、およびMSCOCOとFlickr30kを用いた情報検索実験より、全てのモデルに対してそれぞれhubとなるテキストが探索できてしまい、その単一テキストがモデルの信頼性を低下させてしまうことを確認した。
[論文] (ACL 2026)

※トークは日本語です。

🏃‍♀️ 参加方法

参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。

メーリングリスト登録フォーム