吴翼
清华大学交叉信息院助理教授
吴翼,清华大学交叉信息研究院助理教授,回国前曾任OpenAI全职研究员,研究领域为深度强化学习,多智能体学习,推理模型,人机交互等。2019年在美国加州大学伯克利分校获得博士学位,师从Stuart Russell教授;2014年本科毕业于清华大学交叉信息院计算机科学实验班(姚班),代表作包括强化学习泛化性早期工作Value Iteration Network,多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist.
演讲主题
AReaL:一个专为大型推理模型设计的灵活高效的开源强化学习系统
随着o1/R1系列模型的出圈,推理模型成为了AGI Scaling Law之路上的有一个重要范式,而强化学习正是推动推理模型范式发展的重要引擎。然而强化学习算法相较传统深度学习更为复杂,模块更多,因此对搭建适应强化学习算法的训练系统提出了很大的挑战。在这里我们介绍清华大学和蚂蚁研究院针对推理模型和强化学习开发的训练系统AReaL,以及面对强化学习的独特挑战,AReaL系统的解决思路。