宫叶云 | 2026奇点智能技术大会-4月

免费领取大会全套演讲PPT

点击领取

我要参会

宫叶云

微软亚洲研究院人工智能推理组负责人

微软亚洲研究院人工智能推理组负责人，系统组首席研究经理。研究兴趣主要集中在大语言模型预训练与应用。至今，在ICLR、NeurIPS、ICML、OOPSLA、COLM、 ACL、EMNLP、NAACL、WWW、SIGIR、IJCAI、AAAI和CIKM等国际顶级会议上发表超过80篇学术论文，其中Rho-1获得NeurIPS2024最佳论文亚军奖, 和Autoverus获得OOPSLA 2025杰出技术成果奖。所提出的生成模型被广泛应用于微软的广告业务和Bing搜索服务中。主导的Poolingformer, RikiNet, DKMR$^2$, APOLLO等研究项目在Google NQ, Google TyDiQA, CommonGen, FinQA等排行榜上多次获得第一名的成绩。曾担任EMNLP 2021, EMNLP 2022, IJCAI 2023,2024, ACL 2023, and LREC-COLING 2024的领域主席或者SPC。

演讲主题

重新思考大语言模型预训练中的数据问题 ——数据选择、数据混合与高效训练

当前大语言模型的能力很大程度上依赖于海量数据的规模化训练，但并非所有数据都对模型学习同等重要。本报告将从数据中心（data-centric）视角重新审视大语言模型预训练问题，介绍我们在数据选择、数据混合以及高效模型训练方面的一系列工作。相关研究表明，通过更有效的数据筛选、更加自适应的数据配比以及改进的训练流程，可以在提升训练效率的同时进一步增强模型能力。大纲： a)引言 i.大语言模型预训练的规模化趋势与挑战 ii.从数据规模到数据质量：数据中心视角 b)数据选择（Data Selection） i.Token 重要性估计（Rho-1） ii.长上下文中的长程信息 iii.多样性感知的数据选择 c)数据混合（Data Mixing） i.多领域训练数据的配比问题 ii.Data Mixing Agent：学习式数据配比优化 d)高效训练（Efficient Training） i.Sigma-MoE-Tiny e)总结与展望通过本报告，听众将能够： 1.了解大语言模型预训练中的数据中心（data-centric）视角及其重要性 2.理解如何通过数据选择识别更具价值的训练数据 3.掌握多领域数据混合的关键问题及学习式优化方法 4.认识数据与模型协同设计在提升训练效率中的作用

Boolan 秉承“全球专家，连接智慧”的宗旨，通过汇聚全球顶尖IT技术专家，致力于为广大企业用户提供高端IT技术和产品领域的技术咨询、技术会议、企业内训、专家讲座、研讨会、测评认证等服务。

Boolan公众号

扫一扫，获取大会最新内容

沪ICP备15014563号-6