肖朝军

清华大学计算机系博士后、MiniCPM4主要作者

清华大学自然语言处理实验室博士后,研究方向是高效大模型架构,以第一作者或共同一作身份,在人工智能国际顶级会议上发表论文十余篇,是高效端侧大模型MiniCPM4的主要作者。谷歌学术引用3000余次,曾获钱伟长中文信息处理科学技术奖一等奖,博士后创新人才支持计划,清华大学水木学者,腾讯犀牛鸟精英人才计划杰出奖学金等荣誉。

演讲主题

MiniCPM:高效端侧大模型

随着人工智能技术的快速发展,大模型在端侧设备上的部署需求日益迫切。然而,传统的大模型往往面临计算资源消耗巨大、推理速度缓慢等挑战,难以在资源受限的端侧环境中有效运行。MiniCPM作为专门针对端侧设备优化设计的高效大模型,为解决这一关键问题提供了解决方案。MiniCPM的核心创新体现在四个关键维度的系统性突破。在模型架构层面,InfLLM v2可训练稀疏注意力机制能够显著加速长上下文处理过程中的预填充和解码阶段。在训练数据方面,UltraClean高效数据过滤策略大幅降低数据效果验证效率。在训练算法优化方面,模型风洞实现了高效的预训练策略搜索,分段的探索采样实现了负载均衡的强化学习和三值量化后训练BitCPM实现了参数存储的极限瘦身。在推理系统层面,CPM.cu推理引擎集成了稀疏注意力、模型量化和投机采样等技术,大幅提升了模型的推理效率。在典型的端侧芯片上测试结果表明,相比于相同参数的稠密模型,MiniCPM能够实现5倍以上的推理加速。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号