陈祥麟
趋境科技研发负责人
清华大学硕士,多年大数据与AI全栈开发经验,曾负责数个千万级产品研发与交付。开源项目 Ktransformers 核心开发者之一,实现业界首个单张GPU本地支持千亿大模型、支持1M超长上下文推理的高性能推理框架。
演讲主题
Ktransformers:单卡完成千亿参数大模型推理任务
模型效果显著提升,但在部署私有化时,使用效果更好的模型、更低的延迟和更高的吞吐量,往往意味着更高的成本,尤其在类o1应用里,需要不断推理来获得改进最终解决复杂的推理任务。推理成为在大模型落地阶段的核心要素,如何降低推理的成本是解决大模型落地的难题最关键的问题。 之前业内通常使用优化GPU算力的方式,但这种方式存在优化瓶颈,GPU的算力优化空间有限。除了GPU之外,硬件层面还有多个算力可调用,存储、CPU、GPU全系统异构协同即可成倍提升可用算力,同时采用高性能算力提升GPU的算力利用率,推理性能至少获得10倍提升。 将重点介绍如何让存储、CPU、GPU全系统异构协同,以及如何利用存储空间,怎么使用存储算力。 效果:实现用单个消费级 GPU 在本地运行千亿大模型,并用单个GPU执行上下文长达1M的推理任务,生成速度达16tokens/s,均为业界首次。使用全系统异构协同提升推理性能,还能弥补国产GPU产品在性能方面与英伟达产品的差距,使国产替代化解决方案的可行性更高,打破卡脖子的困境。 大纲: 1、当前的Infra现状和背景 2、大模型落地中遇到的难题:效果、效率和成本之间不可能的平衡 3、存储、CPU、GPU的全系统异构协同推理框架设计 4、存储空间也有算力?技术上如何调用,如何最大化提高利用效率——“以存换算”技术解析 5、利用全系统异构协同推理框架能实现的效果和案例 6、未来帮助国产替代解决方案打破卡脖子的困境 7、未来Infra层的发展展望