鲍凡
生数科技CTO
清华大学计算机系博士,入选2023 MIT TR35(中国)榜单,曾荣获国家奖学金、清华大学计算机系最高荣誉钟士模奖学金在内的多项殊荣。在顶会ICML、NeurIPS、ICLR、CVPR上发表十余篇论文,其中发表的论文《Analytic-DPM: an Analytic Estimate of the Optimal Reverse Variance in Diffusion Probabilistic Models》获得世界级学术奖项ICLR 2022杰出论文奖,是该机器学习顶会首篇由中国大陆单位独立完成的获奖论文。
演讲主题
生数科技在多模态大模型的探索与实践
生数科技一直致力于多模态大模型的研究与应用落地,对于行业卡脖子问题和终极形态我们有一些自己的前沿判断和深刻思考。 在多模态大模型领域,如何统一多模态的输入和输出是行业一直有待解决的关键问题。对于统一多模态的表示方面,通过技术研究和探索实践,我们观察到了一些具备潜力的解法,能够将视频、音频、文字等模态统一起来。 此外,关于多模态大模型的终极形态,我们也有非常多的思考。如果说目前视频生成更多扮演的是“渲染”的作用,那么未来多模态大模型终极形态将扮演智慧大脑的角色,它类似于视频生成领域的o1,具备较强的推理能力,可以更加理解用户意图,并智能地指导其工作和生活。 大纲:1、生数科技在多模态大模型领域的实践与技术探索 2、对多模态大模型领域统一表示问题的几点思考 3、多模态大模型的终极形态