刘啸 | 2026奇点智能技术大会-4月

免费领取《AI原生软件研发成熟度模型 AISMM》白皮书

点击领取

我要参会

刘啸

微软亚洲研究院高级研究员

微软亚洲研究院（MSRA）高级研究员、人工智能推理组Senior Researcher，主要研究方向为自然语言处理、大语言模型与推理技术，致力于推动从基础算法到真实应用场景的系统化落地。本科、博士毕业于北京理工大学，其博士论文获2023年中国中文信息学会（CIPS）优秀博士论文奖。在自然语言处理与机器学习国际顶级会议和期刊发表论文40余篇。相关研究成果曾获 NeurIPS 2024 最佳论文亚军奖，并已在微软 Bing 搜索等核心产品中得到应用。担任 ACL、ICML、NeurIPS、EMNLP 等国际会议领域主席（Area Chair）。

演讲主题

重新思考大语言模型预训练中的数据问题 ——数据选择、数据混合与高效训练

当前大语言模型的能力很大程度上依赖于海量数据的规模化训练，但并非所有数据都对模型学习同等重要。本报告将从数据中心（data-centric）视角重新审视大语言模型预训练问题，介绍我们在数据选择、数据混合以及高效模型训练方面的一系列工作。相关研究表明，通过更有效的数据筛选、更加自适应的数据配比以及改进的训练流程，可以在提升训练效率的同时进一步增强模型能力。大纲： a)引言 i.大语言模型预训练的规模化趋势与挑战 ii.从数据规模到数据质量：数据中心视角 b)数据选择（Data Selection） i.Token 重要性估计（Rho-1） ii.长上下文中的长程信息 iii.多样性感知的数据选择 c)数据混合（Data Mixing） i.多领域训练数据的配比问题 ii.Data Mixing Agent：学习式数据配比优化 d)高效训练（Efficient Training） i.Sigma-MoE-Tiny e)总结与展望通过本报告，听众将能够： 1.了解大语言模型预训练中的数据中心（data-centric）视角及其重要性 2.理解如何通过数据选择识别更具价值的训练数据 3.掌握多领域数据混合的关键问题及学习式优化方法 4.认识数据与模型协同设计在提升训练效率中的作用

Boolan 秉承“全球专家，连接智慧”的宗旨，通过汇聚全球顶尖IT技术专家，致力于为广大企业用户提供高端IT技术和产品领域的技术咨询、技术会议、企业内训、专家讲座、研讨会、测评认证等服务。

Boolan公众号

扫一扫，获取大会最新内容

沪ICP备15014563号-6