鲍科
SGLang社区核心开发人员,LMSYS Member
SGLang社区核心开发人员,LMSYS Member。主要工作致力于提升LLM推理性能,深度参与SGLang中DeepSeek MLA、Data Parallelism Attetnion、模型量化、投机采样等重要Feature的研发和优化。曾就职于美团,专注于搜索推荐模型和LLM的推理加速和在线服务。
演讲主题
ROCm及SGLang社区开源解析
GLang: 高性能LLM推理及服务框架 SGLang是业界备受关注的高性能LLM推理及服务框架,被众多知名公司广泛使用。本次分享将深入探讨SGLang的核心功能,包括其Radix Attention、Overlap Scheduler、Cache Aware Router、DeepSeek相关优化、PD分离、Constraint Decoding和Speculative Decoding等重要特性以及性能优化方法。我们还将分享SGLang在AMD ROCm平台上的推理性能优化工作以及部署实践,助力开发者在AMD GPU上构建高性能AI应用。