免费领取《AI原生软件研发成熟度模型 AISMM》白皮书    

点击领取

我要参会

刘啸

微软亚洲研究院高级研究员

微软亚洲研究院(MSRA)高级研究员、人工智能推理组Senior Researcher,主要研究方向为自然语言处理、大语言模型与推理技术,致力于推动从基础算法到真实应用场景的系统化落地。本科、博士毕业于北京理工大学,其博士论文获2023年中国中文信息学会(CIPS)优秀博士论文奖。在自然语言处理与机器学习国际顶级会议和期刊发表论文40余篇。相关研究成果曾获 NeurIPS 2024 最佳论文亚军奖,并已在微软 Bing 搜索等核心产品中得到应用。担任 ACL、ICML、NeurIPS、EMNLP 等国际会议领域主席(Area Chair)。

演讲主题

重新思考大语言模型预训练中的数据问题 ——数据选择、数据混合与高效训练

当前大语言模型的能力很大程度上依赖于海量数据的规模化训练,但并非所有数据都对模型学习同等重要。本报告将从数据中心(data-centric)视角重新审视大语言模型预训练问题,介绍我们在数据选择、数据混合以及高效模型训练方面的一系列工作。相关研究表明,通过更有效的数据筛选、更加自适应的数据配比以及改进的训练流程,可以在提升训练效率的同时进一步增强模型能力。 大纲: a)引言 i.大语言模型预训练的规模化趋势与挑战 ii.从数据规模到数据质量:数据中心视角 b)数据选择(Data Selection) i.Token 重要性估计(Rho-1) ii.长上下文中的长程信息 iii.多样性感知的数据选择 c)数据混合(Data Mixing) i.多领域训练数据的配比问题 ii.Data Mixing Agent:学习式数据配比优化 d)高效训练(Efficient Training) i.Sigma-MoE-Tiny e)总结与展望 通过本报告,听众将能够: 1.了解大语言模型预训练中的数据中心(data-centric)视角及其重要性 2.理解如何通过数据选择识别更具价值的训练数据 3.掌握多领域数据混合的关键问题及学习式优化方法 4.认识数据与模型协同设计在提升训练效率中的作用

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号