谢吉兵
eBay机器学习平台软件开发工程师
硕士毕业于上海交通大学,专注于AI领域。曾就职于腾讯主要致力于定制化AI推理引擎开发以及工程化落地,现就职于eBay机器学习平台部门,致力于eBay云原生AI推理平台的建设。作为主要负责人主导了基于triton server的LLM zero code 部署方案的开发,基于k8s的LLM auto scale解决方案的开发以及LLM benchmark自动化工具建设。他始终致力于推动人工智能技术的实际应用,力求通过技术创新为企业创造更大的价值。
演讲主题
LLM在eBay云原生模型推理平台的工程化落地
LLM与传统模型相比具有model size大,对GPU资源有依赖,迭代速度快的特点。为了实现用户可快速,完全自助地部署部署LLM,并实现LLM的高效推理,我们基于triton server + vllm的开发了统一的推理方案。为了满足LLM对于多卡部署的要求我们优化了GPU资源的管理和调度能力。为了优化GPU资源的使用率,我们基于K8S提供的 auto scale能力,开发了LLM auto scale的解决方案,包括model文件下载加速和docker image cache等。此外,我们还构建了LLM 自动化的benchmark工具,方便用户对model推理性能进行评估以及计算所需的GPU资源。 大纲: 1. 业务背景与平台挑战 2. LLM的推理服务与推理引擎 3. LLM service的auto scale 4. LLM self-service benchmark工具 5. 未来与展望