宫叶云
微软亚洲研究院人工智能推理组负责人
微软亚洲研究院人工智能推理组负责人,系统组首席研究经理。研究兴趣主要集中在大语言模型预训练与应用。至今,在ICLR、NeurIPS、ICML、OOPSLA、COLM、 ACL、EMNLP、NAACL、WWW、SIGIR、IJCAI、AAAI和CIKM等国际顶级会议上发表超过80篇学术论文,其中Rho-1获得NeurIPS2024最佳论文亚军奖, 和Autoverus获得OOPSLA 2025杰出技术成果奖。所提出的生成模型被广泛应用于微软的广告业务和Bing搜索服务中。主导的Poolingformer, RikiNet, DKMR$^2$, APOLLO等研究项目在Google NQ, Google TyDiQA, CommonGen, FinQA等排行榜上多次获得第一名的成绩。曾担任EMNLP 2021, EMNLP 2022, IJCAI 2023,2024, ACL 2023, and LREC-COLING 2024的领域主席或者SPC。
演讲主题
重新思考大语言模型预训练中的数据问题 ——数据选择、数据混合与高效训练
当前大语言模型的能力很大程度上依赖于海量数据的规模化训练,但并非所有数据都对模型学习同等重要。本报告将从数据中心(data-centric)视角重新审视大语言模型预训练问题,介绍我们在数据选择、数据混合以及高效模型训练方面的一系列工作。相关研究表明,通过更有效的数据筛选、更加自适应的数据配比以及改进的训练流程,可以在提升训练效率的同时进一步增强模型能力。 大纲: a)引言 i.大语言模型预训练的规模化趋势与挑战 ii.从数据规模到数据质量:数据中心视角 b)数据选择(Data Selection) i.Token 重要性估计(Rho-1) ii.长上下文中的长程信息 iii.多样性感知的数据选择 c)数据混合(Data Mixing) i.多领域训练数据的配比问题 ii.Data Mixing Agent:学习式数据配比优化 d)高效训练(Efficient Training) i.Sigma-MoE-Tiny e)总结与展望 通过本报告,听众将能够: 1.了解大语言模型预训练中的数据中心(data-centric)视角及其重要性 2.理解如何通过数据选择识别更具价值的训练数据 3.掌握多领域数据混合的关键问题及学习式优化方法 4.认识数据与模型协同设计在提升训练效率中的作用