免费领取大会全套演讲PPT    

点击领取

我要参会

蔡尚铭

SGLang社区核心开发者

阿里云飞天实验室研究员与技术专家,清华大学计算机科学与技术系博士。主要研究方向包括:高性能推理系统、大型语言模型、分布式机器学习训练等。他是SGLang社区PD分离、流水线并行等特性的核心Contributor和Maintainer,同时也是Mooncake社区的核心成员与Maintainer。

演讲主题

SGLang高性能推理现状与未来路线全景解析

SGLang作为开源高性能LLM/VLM推理引擎,长期对DeepSeek、Qwen、Kimi等开源模型进行day-0 support,推进推理系统的架构技术进步,已被国内外众多顶级企业采用为生产环境推理部署引擎,全球范围内为超过30万块GPU提供支持。本次演讲将简要介绍SGLang在2025年和近期实现的重要技术进展:PD分离大规模部署、KVCache分层缓存、强化学习集成、Speculative decoding生态支持、面向超长上下文的PP并行加速、Encoder-Prefill-Decode分离、Mini-SGLang等。同时也会分享SGLang2026 Q1的路线规划。 大纲: 可以了解SGLang的核心feature,获悉最新进展和未来路线,有利于用户更好地使用SGLang推理框架运行LLM/VLM获得极致性能,降低成本。也有利于相关开发者了解进展,加入开发。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号