崔淦渠
上海人工智能实验室青年科学家
崔淦渠,上海人工智能实验室青年科学家,博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在ICML, NeurIPS, ICLR, ACL, KDD等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超8000次。
演讲主题
PRIME: 结合隐式过程奖励的大模型强化学习
OpenAI o1 以及DeepSeek-R1 模型的发布证明了强化学习是通向高阶推理能力的必经之路,但开源社区对此还少有探索。我们提出了基于可扩展过程奖励的在线强化学习方法PRIME,通过implicit process reward成功解决了PRM在大模型强化学习中怎么用,怎么训,怎么扩展的三大本质问题,易用性和可扩展性极佳。我们从Qwen2.5-Math-7B-Base出发训练了Eurus-2,仅用 1/10于Qwen的开源数据,数学能力超过Llama3.1-70B, GPT-4o等大模型。其中,PRIME为模型带来了16.7%的绝对提升,远超我们已知的任何开源方案。