免费领取大会全套演讲PPT    

我要参会

报名领取

艾智远

趋境科技CEO

清华大学博士,专长于分布式系统优化、并行计算、分布式存储等领域,前深信服大数据、数字化、AI应用等多个部门的研发主管,负责团队管理及关键产品研发,主导多个千万级项目研发与交付,拥有丰富的产品化落地经验。

演讲主题

如何用单张GPU跑千亿大模型

模型效果显著提升,但在部署私有化时,使用效果更好的模型、更低的延迟和更高的吞吐量,往往意味着更高的成本,尤其在类o1应用里,需要不断推理来获得改进最终解决复杂的推理任务。推理成为在大模型落地阶段的核心要素,如何降低推理的成本是解决大模型落地的难题最关键的问题。 之前业内通常使用优化GPU算力的方式,但这种方式存在优化瓶颈,GPU的算力优化空间有限。除了GPU之外,硬件层面还有多个算力可调用,存储、CPU、GPU全系统异构协同即可成倍提升可用算力,同时采用高性能算力提升GPU的算力利用率,推理性能至少获得10倍提升。 将重点介绍如何让存储、CPU、GPU全系统异构协同,以及如何利用存储空间,怎么使用存储算力。 效果:实现用单个消费级 GPU 在本地运行千亿大模型,并用单个GPU执行上下文长达1M的推理任务,生成速度达16tokens/s,均为业界首次。使用全系统异构协同提升推理性能,还能弥补国产GPU产品在性能方面与英伟达产品的差距,使国产替代化解决方案的可行性更高,打破卡脖子的困境。 大纲: 1、当前的Infra现状和背景 2、大模型落地中遇到的难题:效果、效率和成本之间不可能的平衡 3、存储、CPU、GPU的全系统异构协同推理框架设计 4、存储空间也有算力?技术上如何调用,如何最大化提高利用效率——“以存换算”技术解析 5、利用全系统异构协同推理框架能实现的效果和案例 6、未来帮助国产替代解决方案打破卡脖子的困境 7、未来Infra层的发展展望

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号