免费领取大会全套演讲PPT    

立即领取

邱凯

微软亚洲研究院高级研究员,Logic-RL贡献者

邱凯,微软亚洲研究院高级研究员,毕业于中国科学院大学。研究方向包括图像与视频生成,多模态大模型的后训练,大语言模型的强化学习等。有多篇文章发表于CVPR, ICCV,AAAI,ACM Multimedia,Pattern Recognition等会议和期刊。相关研究成果已用于微软的多个产品,包括Bing Ads,Windows Copilot等。作为CVPR, ICCV, ECCV, ACM MM, AAAI, IJCV等会议和期刊的审稿人。相关技术获得中国和美国专利。

演讲主题

Logic-RL:通过基于规则的强化学习释放大模型推理能力

我们探讨基于规则的强化学习(RL)在大规模推理模型中的潜力。受DeepSeek-R1成功的启发,我们通过合成逻辑谜题作为训练数据,分析推理动态。这些逻辑谜题因其可控的复杂性和简单的答案验证过程而成为理想的训练数据。本研究提出了几项关键技术贡献,包括强调思维和回答过程的系统提示、惩罚捷径输出的严格格式奖励函数,以及实现稳定收敛的简单训练方案。我们的7B模型在训练仅5,000个逻辑问题后,展示了在挑战性数学基准测试AIME和AMC上的泛化能力。 大纲: 引言 探讨DeepSeek-R1在基于规则的强化学习中的贡献及启发 研究背景与动机 分析现有数学数据集在推理训练中的局限性。 介绍可控难度的Knights and Knaves(K&K)逻辑谜题作为训练数据的选择理由。 技术贡献 详细描述系统提示、格式奖励函数和训练方案的设计。 介绍REINFORCE++算法及其在模型训练中的应用和改进。 实验与结果 讨论模型在训练过程中推理步骤的自然扩展。 展示模型在AIME和AMC数学基准测试上的性能提升。 发现与洞察 分析响应长度与推理质量的关系。 讨论‘思考’相关词频率与性能的相关性。 比较SFT与RL在记忆和泛化能力上的差异。 评估冷启动对训练动态的影响。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号