王炳宁
百川智能预训练负责人
博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKM best paper runner up。博士论文《机器阅读理解关键技术研究》获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会执行委员。
演讲主题
Transformer效率优化
最近两年,由ChatGPT引领的大语言模型技术取得了非常大的进展,仅仅依靠下一个单词的预测这种简单的无监督训练方法,在很多任务上大语言模型都达到甚至超过了人类的水平。当前大语言模型效果提升的最重要的原理是Scaling law,即不断扩展模型参数量,不断扩大训练数据量。然而,我们依然能够通过引入一些优化的技术和手段在相同模型尺寸、相同数据量的情况下不断提升模型的效果。现在最新很多小尺寸比如2B 3B的模型已经能超过之前很多百亿甚至几百亿参数的模型效果了。在这个报告中,我将给大家介绍一下最近一些提升Transformer效率的预训练方案,即如何在相同资源下训练出来更好的模型效果。我将从模型结构的优化,比如一些对Attention的改进,训练方案的优化,以及数据的优化三个方面对当前的语言模型效率提升做出总结。 大纲: 大模型时代结构优化的背景 Attention的改进 推理速度优化的关键 MOE结构的介绍和应用