攻めのAI安全性:必知論文N本🔥

📅 2026/04/15 (Wed) 12:00–13:00 (JST)

@ online

🗣️ 金子正弘 / Masahiro Kaneko(MBZUAI)

北見工業大学卒業(2016年)後、東京都立大学にて修士・博士号取得(2021年)。同年4月より東京工業大学・岡崎研究室にてポスドク研究員を務め、2023年7月よりMBZUAIポスドク研究員(現職)。2025年11月よりNII/LLMC特任研究員を兼任。
[Webサイト]

📝 攻めのAI安全性:必知論文N本🔥

概要:「安全性」と聞くと、AIの本来の能力を押し下げるブレーキの話や、AIを縛るような規制や制度の話、シンギュラリティに備えるような身近ではない話というような守りの印象を持たれがちかもしれない。しかし実際には、LLMの挙動からその限界や脆弱性を積極的に暴きにいく研究であり、倫理学・社会学・セキュリティなど既存の分野の枠を越えて問いを立てていく、どこまでも攻めの研究領域である。現在運用されているLLMの現実の問題に直接切り込むという意味でも、今まさに最前線で戦われている分野である。本発表では、攻めの観点からSocial biasやJailbreakなど主要なトピックにまたがる必知論文をN本紹介する。この発表をきっかけに、一人でも多くの方が安全性の研究の魅力に気づいていただけることを願っている。
[論文1] (ICLR 2026) [論文2] (NeurIPS 2025) [論文3] (IJCNLP-AACL 2025)

※トークは日本語です。

🏃‍♀️ 参加方法

参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。

メーリングリスト登録フォーム