艾智远 | 2024全球机器学习技术大会

免费领取大会全套演讲PPT

我要参会

报名领取

艾智远

趋境科技CEO

清华大学博士，专长于分布式系统优化、并行计算、分布式存储等领域，前深信服大数据、数字化、AI应用等多个部门的研发主管，负责团队管理及关键产品研发，主导多个千万级项目研发与交付，拥有丰富的产品化落地经验。

演讲主题

如何用单张GPU跑千亿大模型

模型效果显著提升，但在部署私有化时，使用效果更好的模型、更低的延迟和更高的吞吐量，往往意味着更高的成本，尤其在类o1应用里，需要不断推理来获得改进最终解决复杂的推理任务。推理成为在大模型落地阶段的核心要素，如何降低推理的成本是解决大模型落地的难题最关键的问题。之前业内通常使用优化GPU算力的方式，但这种方式存在优化瓶颈，GPU的算力优化空间有限。除了GPU之外，硬件层面还有多个算力可调用，存储、CPU、GPU全系统异构协同即可成倍提升可用算力，同时采用高性能算力提升GPU的算力利用率，推理性能至少获得10倍提升。将重点介绍如何让存储、CPU、GPU全系统异构协同，以及如何利用存储空间，怎么使用存储算力。效果：实现用单个消费级 GPU 在本地运行千亿大模型，并用单个GPU执行上下文长达1M的推理任务，生成速度达16tokens/s，均为业界首次。使用全系统异构协同提升推理性能，还能弥补国产GPU产品在性能方面与英伟达产品的差距，使国产替代化解决方案的可行性更高，打破卡脖子的困境。大纲： 1、当前的Infra现状和背景 2、大模型落地中遇到的难题：效果、效率和成本之间不可能的平衡 3、存储、CPU、GPU的全系统异构协同推理框架设计 4、存储空间也有算力？技术上如何调用，如何最大化提高利用效率——“以存换算”技术解析 5、利用全系统异构协同推理框架能实现的效果和案例 6、未来帮助国产替代解决方案打破卡脖子的困境 7、未来Infra层的发展展望

Boolan 秉承“全球专家，连接智慧”的宗旨，通过汇聚全球顶尖IT技术专家，致力于为广大企业用户提供高端IT技术和产品领域的技术咨询、技术会议、企业内训、专家讲座、研讨会、测评认证等服务。

Boolan公众号

扫一扫，获取大会最新内容

沪ICP备15014563号-6