张君
昇腾生态技术专家
硕士毕业于厦门大学通信与信息系统专业,毕业后一直就职于华为公司。曾在MR,Neuro computing有数篇论文发表。作为核心开发者参与AI框架(昇思)的开发,并负责动态图的自动微分以及动静结合模块。目前主要参与大模型推理加速在昇腾硬件上的相关开发和优化工作,致力于通过优化推理框架、模型算法和算子加速库等层面,进一步提升大模型推理的性能。
演讲主题
大模型推理加速的优化实践
介绍当前大模型推理加速的常见手段以及它们应用场景和约束,主要是框架、算法以及算子加速上的优化方法。结合当前我们实际的开发项目,介绍MindIE-LLM在框架,以及代码实现上的优化,并对具体的领域加速库ATB展开探讨,提供优化思路给大家。 大纲: 主要分为以下几个部分: 1、大模型推理加速的常用手断。介绍数据、模型并行处理,框架实现和算子加速库等应用场景以及约束。 2、基于MindIE-LLM介绍我们在推理框架上的优化实践。 3、介绍Transformer领域的昇腾加速库ATB,包括原理和使用介绍,并加以探讨。 4、下一步的优化方向。 5、展望。