陆承镪
小红书 AI 搜索生成算法负责人
陆承镪,现任小红书 AI 搜索生成算法负责人,硕士毕业于中国科学技术大学,主要研究方向包括大模型预训练/后训练,Agent,RAG,AI4Sci 等。先后在腾讯 QLab,阿里 Qwen Team,小红书搜索负责算法研究及业务落地。在 NeurIPS、KDD、AAAI、ACL等会议/期刊发表数十篇论文,谷歌学术被引用次数约六千余次。
演讲主题
自适应强化学习驱动AI搜索Agent对齐在小红书的实践
AI搜索Agent需要在事实准确性、安全性、信息丰富度、用户体验等多维目标间动态平衡,这对强化学习对齐提出了新挑战。本次分享介绍自适应课程学习驱动的AI搜索Agent RL对齐完整方案。 我们提出的自适应课程学习RL框架,通过动态监测各奖励维度的学习曲线和数据边际贡献,在训练过程中自动调整优化重点和数据权重,实现"因材施训"的多目标优化。基于此方法论,我们构建了小红书SearchLLM Agent,设计分层多维奖励体系,结合规则检查、LLM评审和门控聚合,通过GRPO+自适应课程学习联合优化,在离在线指标上均取得显著效果。