免费领取大会全套演讲PPT    

报名领取

我要参会

袁进辉

一流科技OneFlow创始人

中关村数智人工智能产业联盟副理事长,之江实验室天枢开源AI平台架构师。2013年加入微软亚洲研究院从事大规模机器学习平台研发,2014年发明了当时世界上最快的主题模型训练算法系统LightLDA,被微软研究院全球副总裁周以真称为“年度最好成果”。2015年专注搭建基于异构集群的深度学习平台,获微软亚洲研究院院长特别奖。袁博士曾在计算机视觉及多媒体领域顶级会议发表多篇论文,连续多年获得美国国家技术标准局的视频检索评测比赛第一名。清华大学工学博士。

演讲主题

大规模分布式深度学习系统的挑战和进展

以GPT-3为代表的“巨模型”以其惊艳的效果和高昂的训练成本引起行业内的高度关注和热烈讨论,新的需求必然推动深度学习框架为代表的分布式系统技术向前发展,深度学习框架不仅要支持数据并行,而且要支持大模型训练所需要的模型并行、流水并行,反过来,强大的深度学习系统又会彻底解放算法科学家的想象力,帮助算法科学家探索新的深度学习模型。已有深度学习框架在解决“巨模型”的分布式训练时遇到了本质困难,人们不得不深度定制优化深度学习框架,英伟达推出了HugeCTR, Megatron-LM等项目,微软推出了 DeepSpeed 项目,为了使用一个统一的深度学习框架解决以上挑战,一流科技推出了全新设计的深度学习框架OneFlow。借这次交流机会,我们一起梳理一下大规模分布式深度学习系统的挑战和最新进展,介绍大规模分布式深度学习系统的核心原理,并展望深度学习框架未来的发展走向。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号