免费领取大会全套演讲PPT    

立即领取

张辰

摩尔线程资深算法工程师,前腾讯高级算法研究员

负责摩尔线程分布式训练方面研发工作 NLP方向从业十年以上,专注于NLP算法、分布式训练、大规模优化方向 曾经参与腾讯搜一搜业务优化、带队参加CLUE大模型benchemark测评,以1B以下小模型获得Top 10 深度学习方向老兵,MXNet.cpp Commiter

演讲主题

摩尔线程全功能GPU大规模语言模型分布式训练性能优化探索

简介:在大模型训练的浪潮中,国产全功能GPU的分布式训练能力正迎来前所未有的突破。摩尔线程 AI Infra 组深耕大语言模型训练技术近三年,在 CLUE 评测中跻身 Top 10,成功适配几乎所有主流模型训练框架,并构建国产大规模显卡集群,借助 FP8 加速,达成业界顶级水平 MFU。同时,我们率先完成 DeepSeek 模型的高效适配,实现卓越的训练性能。在本次演讲中,我们将深入剖析国产全功能GPU在大模型训练中的兼容性优势,分享从 Dense 模型到 MoE 模型 优化的核心实践,并探讨国产 AI 计算硬件在未来大规模训练中的突破方向,为开发者提供实战经验与深度思考。 大纲: 1、国产显卡 AI 计算架构: MUSA 高度兼容性及 MT-Megatron 等框架的落地成果 2、Dense 模型优化探索: 稠密模型分布式训练的挑战与优化策略 3、MoE 模型加速实践: DeepSeek 类 MoE 模型的高效适配与性能优化 4、未来展望: 国产AI 计算硬件如何在大规模模型训练中持续突破

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号