黄世宇
第四范式开源强化学习OpenRL Lab负责人
第四范式强化学习科学家,本科与博士均毕业于清华大学计算机系,导师是朱军和陈挺教授,本科期间在CMU交换,导师为Deva Ramanan教授。主要研究方向为强化学习,多智能体强化学习,分布式强化学习。曾在ICLR、CVPR、AAAI、NeurIPS, Nature Machine Intelligence, ICML, AAMAS, Pattern Recognition等会议和期刊发表多篇学术论文。其领导开发的TiZero谷歌足球游戏智能体曾在及第平台上取得排名第一的成绩。黄世宇也曾在腾讯AI Lab、华为诺亚、商汤、瑞莱智慧等工作。
演讲主题
OpenRL: 通用强化学习训练框架
强化学习作为机器学习领域中重要的训练范式,在机器人、自然语言、内容生成、自动驾驶、推荐系统中都发挥着极其重要的作用。OpenRL作为一个通用强化学习框架,通过统一的训练接口,同时支持单智能体,多智能体,自然语言等任务的训练。另外,OpenRL提供易用且可定制化的编程模式,既方便入门用户快速上手,又能为专业人员提供灵活的配置方式。