免费领取大会全套演讲PPT    

立即领取

鲍科

SGLang社区核心开发人员,LMSYS Member

SGLang社区核心开发人员,LMSYS Member。主要工作致力于提升LLM推理性能,深度参与SGLang中DeepSeek MLA、Data Parallelism Attetnion、模型量化、投机采样等重要Feature的研发和优化。曾就职于美团,专注于搜索推荐模型和LLM的推理加速和在线服务。

演讲主题

ROCm及SGLang社区开源解析

GLang: 高性能LLM推理及服务框架 SGLang是业界备受关注的高性能LLM推理及服务框架,被众多知名公司广泛使用。本次分享将深入探讨SGLang的核心功能,包括其Radix Attention、Overlap Scheduler、Cache Aware Router、DeepSeek相关优化、PD分离、Constraint Decoding和Speculative Decoding等重要特性以及性能优化方法。我们还将分享SGLang在AMD ROCm平台上的推理性能优化工作以及部署实践,助力开发者在AMD GPU上构建高性能AI应用。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号