SoftMatcha 2: 1兆語規模の超高速かつ柔らかい検索

📅 2026/04/01 (Wed) 12:00–13:00 (JST)

@ online

🗣️ 米田 優峻 / Masataka Yoneda(東京大学)

現在、東京大学情報理工学院コンピュータ科学専攻修士課程に所属。大学対抗プログラミングコンテスト (ICPC) 世界 2 位、国際情報オリンピック金メダルなど、競技プログラミングの実績多数。著書に『競技プログラミングの鉄則』など 3 冊、累計 10 万部突破。
[Webサイト]

📝 SoftMatcha 2: 1兆語規模の超高速かつ柔らかい検索

概要:本トークでは、大規模言語モデル (LLM) の学習データとしても使用される 1 兆語以上の超大規模コーパスに対し、意味や表記の揺れにも対応した文字列検索・用例検索を行う SoftMatcha 2 を紹介する。実験では、1.4 兆語コーパスに対し、ほぼすべてのケースで 0.3 秒未満の検索を達成したほか、LLM のベンチマーク汚染に対する応用可能性も示した。実際に検索を行えるデモも一般公開している。
[論文] [デモページ]

※トークは日本語です。

🏃‍♀️ 参加方法

参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。

メーリングリスト登録フォーム