Preferred Networks エンジニア。前職はGoogle。深層学習を使った金融時系列のモデリングで国際会議AAAIなど機械学習関連トップ会議での採択歴も複数あり。国際情報オリンピック日本代表、ICPC World Finals 日本代表など競技プログラミングの経験を経て、在学中にAtCoder起業。現職ではPLaMo翻訳のモデル開発や金融特化LLMなどの開発を行っている。
[Webサイト]
概要:本トークでは、PLaMo翻訳の開発を通じて見えてきた「特化モデル」の可能性について議論する。機械翻訳は大規模言語モデル以前から研究されてきたが、LLMの持つ大規模事前学習の力を活用することで、従来のニューラル機械翻訳を上回る性能を実現できた。PLaMo翻訳モデルは8Bパラメータであり、LLMとしては比較的小規模(SLM: Small Language Model とも呼ばれる)であるが、現在の計算機環境を考えると実用的に扱える特化モデル開発の現実解といえる。本事例を通じて、この規模での特化モデル開発の展望を示す。
[論文1] (preprint) [論文2] (preprint) [プロダクトページ]
※トークは日本語です。
参加用のZoom URLはメーリングリストで配信しています。
ほかの宣伝投稿はありません。いつでも抜けられます。