孟令公
得物机器学习高级专家
主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯、阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地,曾在得物技术公众号发表过多篇高质量大模型相关文章,比如:利用多Lora节省大模型部署成本,KubeAI大模型推理加速实践,得物大模型平台接入最佳实践。
演讲主题
大模型推理性能提升实践
我们在生产环境中批量部署了专门针对大模型的推理集群。为优化大模型的推理速度并降低成本,我们结合业界最新技术进行了多方面的推理引擎性能提升尝试。 在本次分享中,我们将介绍一些提升大模型的推理性能的有效方法,为更多寻求大模型推理优化的团队和开发者提供参考。 大纲: 一 大模型推理性能提升-业务场景与面临挑战 二 大模型推理性能提升-技术方向 三 调度器优化 四 注意力机制优化 五 其他优化方向 六 可行推理框架与实用技巧 七 总结与展望