邹昊晟
360智脑算法资深专家
邹昊晟博士现任360智脑算法资深专家,主导了开源项目Light-R1和360-LLaMA-Factory。他博士毕业于清华大学TSAIL朱军教授组,本科毕业于清华大学电子系。在大模型之前历任米哈游和第四范式的强化学习研究员,是TF版tianshou的作者。
演讲主题
开源推理模型的课程学习与GRPO数据心得和训练策略
360智脑在3月上旬开源了Light-R1多尺寸系列推理模型以及训练数据和代码,在开源时首次实现领域内评测从零超越DeepSeek-R1-Distill-32B、首次实现14B模型在长推理SFT后GRPO强化学习的显著提升,全系列模型都在周鸿祎短视频中亮相。报告将介绍Light-R1背后的课程学习SFT、DPO和GRPO等方法上的数据心得和训练策略,以及和业界主流推理模型、zero-RL等相关工作在训练资源、方法等各方面的比较。虽然Light-R1仅使用数学数据训练了模型的长推理能力,但在非数学任务上也表现出了泛化性及有效性。随着训练和推理技术的不断发展,未来长推理模型将更加普及,Light-R1正为低成本快速训练一个领域专精推理模型提供了重要参考。