免费领取大会全套演讲PPT    

点击领取

我要参会

张家驹

vLLM 社区贡献者、红帽大中华区CTO

热衷于开源软件及开源社区,对Linux操作系统、分布式、存储及高可用性、虚拟化及云计算、容器及云原生、AI基础设施等多个领域有20余年的产品研发、架构设计及团队管理经验,曾在知名外企及国内ICT领导企业担任首席架构师、技术总监、中国区技术负责人等职。此外,作为独立贡献者,曾发起开源项目并在国际上成功推广。目前就职于红帽亚太CTO办公室,主导vLLM及llm-d等AI推理相关开源社区的孵化与推广、AI技术战略实施、并重点推进100%开源的AI产品及解决方案在垂直行业的创新应用与落地。

演讲主题

vLLM-compile:将编译器优化引入大模型推理

vLLM 已成为一款广泛采用的开源的大模型推理引擎,支持多种模型和硬件加速器。vLLM 中的 torch.compile 集成实现了性能可移植性,并实现了模型实现与底层优化之间的清晰解耦。本次演讲中,我们将探讨 vLLM-compile 的设计,深入剖析关键的融合算子优化和图转换,并讨论通过编译如何提升运行时效率,从而提高开发人员的生产力。我们还将介绍该领域的一些最新进展,包括缩短编译时间的一些新技术和一种新的大模型专用的编译器中间表示。 1)背景与挑战 2)vLLM-compile架构设计 3)核心优化技术详解 4)最新特性和未来展望 听众收益:了解vLLM-compile的核心技术,并预判未来技术演进方向。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号