免费领取大会全套演讲PPT    

报名领取

我要参会

王勤龙

蚂蚁集团 AI Infra 技术专家

王勤龙,现任蚂蚁集团 AI Infra 技术专家,长期在蚂蚁从事 AI 基础设施的研发,主导了蚂蚁分布式训练的弹性容错与自动扩缩容项目的建设,将蚂蚁的混布集群资源利用率从不足20%提升至40%以上,将千卡大模型训练的有效时间提升至97%以上。先后参与多个开源项目,如 ElasticDL和 DLRover,开放原子基金会2023活力开源贡献者。目前为蚂蚁 AI Infra 开源项目 DLRover 的架构师,专注于打造稳定的、可扩展的和高效的大规模分布式训练系统。

演讲主题

DLRover 训练故障自愈:大幅提升大规模AI训练的算力效率

当前大规模语言模型训练需要大量的加速卡来训练,例如 GPU和NPU等。由于GPU 机器的故障率较高,频繁的故障会导致训练中断、计算浪费和集群空转,从而造成大量的时间和算力浪费。为此,DLRover 开源了训练故障自愈技术,通过快速的节点状态检测、弹性扩缩容、动态组网和Flash Checkpoint 等技术,最大程度地降低故障导致的算力浪费。当前,在蚂蚁千卡规模的训练上,在故障频率为每天一次的情况下,有效训练时间占比达到97%。除了支持GPU,DLRover 故障自愈还支持国产加速卡的分布式训练,如华为昇腾芯片和阿里平头哥芯片。项目地址:https://github.com/intelligent-machine-learning/dlrover

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号