吴翼
前OpenAI研究员,清华大学交叉信息院助理教授
吴翼,清华大学交叉信息院助理教授,博士生导师,智能体强化学习框架AReaL负责人。2019于加州大学伯克利分校获得博士学位,曾任OpenAI全职研究员,研究领域为强化学习、推理模型、通用智能体等。代表作包括多智能体学习最高引算法 MAPPO/MADDPG,OpenAI多智能体捉迷藏项目等,还曾获得顶级会议NIPS2016 best paper award和ICRA2024 best demo award finalist,WAIC2025云帆奖,MIT Techreview Asia-Pacific 35under35奖。
演讲主题
AReaL: 面向智能体的全异步强化学习框架
智能体是AGI时代大模型的最重要的应用形态。而强化学习是训练通用的智能体模型的技术核心。AReaL是清华大学交叉信息院和蚂蚁技术研究院强化学习实验室共同打造的强化学习开源训练框架。通过全异步的系统设计和算法为中心系统设计理念,实现最快速,最好写的Agent RL。本次演讲中,我们将分享Agent RL的核心挑战以及AReaL的核心技术思想,全异步强化学习技术,以及相关最佳实践。欢迎关注AReaL项目:https://github.com/inclusionAI/AReaL 大纲: 1.强化学习与大模型的结合点:RLHFReasoning RLAgent RL 2.Agent RL的挑战 3.AReaL:面向Agent的强化学习框架,通过全异步强化学习(Fully Asynchronous RL)实现最快的强化学习训练,在推理RL上实现3倍加速,在搜索智能体场景上实现3-5倍加速。 4.AReaL-lite:AReaL的最新版本,通过全新的算法中心(Algorithmic-Centric)设计,实现最好写的Agent RL框架。