免费领取大会全套演讲PPT    

立即领取

吴翼

前OpenAI研究员,清华大学交叉信息院助理教授

吴翼,清华大学交叉信息院助理教授,博士生导师,智能体强化学习框架AReaL负责人。2019于加州大学伯克利分校获得博士学位,曾任OpenAI全职研究员,研究领域为强化学习、推理模型、通用智能体等。代表作包括多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist,WAIC2025云帆奖,MIT Techreview Asia-Pacific 35under35奖。

演讲主题

AReaL:一个专为大型推理模型设计的灵活高效的开源强化学习系统

随着o1/R1系列模型的出圈,推理模型成为了AGI Scaling Law之路上的有一个重要范式,而强化学习正是推动推理模型范式发展的重要引擎。然而强化学习算法相较传统深度学习更为复杂,模块更多,因此对搭建适应强化学习算法的训练系统提出了很大的挑战。在这里我们介绍清华大学和蚂蚁研究院针对推理模型和强化学习开发的训练系统AReaL,以及面对强化学习的独特挑战,AReaL系统的解决思路。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号