张俊林
新浪微博首席科学家及AI研发部负责人
张俊林,中国中文信息学会理事,中科院软件所博士。目前担任新浪微博首席科学家及AI研发部负责人,此前在阿里巴巴担任资深技术专家,负责新技术团队。技术书籍《这就是搜索引擎:核心技术详解》、《大数据日知录:架构与算法》作者。
演讲主题
可验证奖励强化学习(RLVR):业界经验、面临问题及发展方向
自DeepSeek-R1发布以来,可验证奖励强化学习(RLVR)已成为推动大模型发展的核心引擎,它利用数学答案正确性等客观可验证信号优化模型推理性能,推动AI从“主观对齐”迈向“客观正确”。然而,RLVR研究的爆炸式增长也带来了技术选型的困惑,众多改进方案使研发人员难以权衡利弊。本次分享将首先梳理近期学界与业界的实践经验,比如On-Policy与Off-Policy策略的选型以及各类RL方法的关联与适用场景等;其次分析当前RLVR研发中存在的冗余研究、训练稳定性不足等存在的问题;最后展望其未来发展方向,如将RL拓展至智能体行动优化、Rubric Reward设计等前沿领域,为开发者提供清晰的技术选型框架。 大纲: 一.RLVR简介 二.RLVR业界经验 三.RLVR面临问题 四.RLVR未来发展方向