温颖
上海交通大学AI学院长聘教轨副教授
温颖,上海交通大学人工智能学院长聘教轨副教授,博士生导师。他的研究方向涉及多智能体学习,强化学习及博弈论在其中的应用。他于2020年和2016年分别获得英国伦敦大学学院计算机系博士学位和研究型硕士学位,入选上海海外高层次人才,作为负责人主持国家重点研发计划课题,上海市青年科技英才扬帆计划。他的四十余篇研究成果发表在ICML, NeurIPS, ICLR, IJCAI, AAMAS等相关领域的一流国际会议上,并且获得CoRL 2020最佳系统论文奖,AAMAS 2021 Blue Sky Track最佳论文奖。他连续多年担任ICML, NeurIPS, IJCAI, AAAI, IROS, ICAPS, Operational Research等国际知名会议/期刊的PC成员或审稿人。
演讲主题
基于强化反馈的大模型自我提升与推理增强
大型语言模型(LLM)的能力提升依赖于持续获取高质量的数据和反馈信号。虽然预训练阶段已利用大量优质数据,但持续增长的关键在于不断引入新的高质量数据。由于人工数据生产成本高且难以满足需求,探索大模型自我迭代生成和筛选数据的方法变得至关重要。本讲座将探讨大模型的数据再生产过程,包括生成、评估和训练三个步骤,核心挑战在于设计高效的算法和反馈利用机制,以实现数据的有效筛选和评估,通过应用不同级别的反馈信号进行强化学习,确保只有最有价值的数据用于模型的迭代训练,并增强推理(Inference)阶段的复杂推理(Reasoning)和决策任务的性能。