Portable Reward Tuning: Towards Reusable Fine-Tuning across Different Pretrained Models

2025/07/09 (Wed) 12:00 (JST)

長谷川拓 / Taku Hasegawa (NTT)

2018年 大阪府立大学大学院 博士後期課程修了。2019年 日本電信電話株式会社入社。
現在、人間情報研究所研究主任。

概要

基盤モデル(foundation model)はさまざまな専門的タスクに活用されてきましたが、どの基盤モデルもその古い知識や限られた能力のために、いずれ陳腐化します。 よって、基盤モデルは度々アップデートされ、そのたびに新しいモデルをファインチューニングするコストが繰り返し発生します。 本論文では、ファインチューニングを報酬最大化問題として再定式化することに基づき、推論時のオーバーヘッドを本質的に低減する新たなファインチューニング手法「Portable Reward Tuning(PRT)」を提案しました。PRTでは、基盤モデルのパラメータをファインチューニングする代わりに、報酬モデルを明示的に学習します。 推論時には、報酬最大化の定式化を通じて、この報酬モデルを条件を満たす任意の基盤モデルと組み合わせて使用することができます。 実験を通して、PRTで学習したモデルは既存の推論時チューニングと同等の精度を達成しながら、推論コストを削減できることを示しました。

※トークは日本語です。

メーリングリストへの登録: 参加用URLなどNLPコロキウムに関するお知らせを受け取りたい方はメーリングリストへのご登録をお願いします。

メーリングリスト登録フォーム

[トップページへ戻る]