免费领取大会全套演讲PPT    

报名领取

我要参会

潘欣

零一万物联合创始人

零一万物联和创始人。主要从事Diffusion, MLLM模型的研发和应用。AI工程和算法十年工作经验,曾在Google Brain参与TensorFlow、TPU开发和CV、NLP、Speech深度学习算法研究。负责百度飞桨从0到1的重构。开发腾讯无量推荐系统,支撑腾讯数亿DAU用户的内容推荐。负责字节AIGC和视觉大模型AI平台,支持抖音、Tiktok、剪映等产品。

演讲主题

多模态技术和应用

1.历史回顾 CV、NLP、Speech从弱到强、从多阶段走向端到端,从分裂走向融合 2. Diffusion和Multimodal-LLM介绍 2.1 Diffusion的演进 2.2 MLLM的演进 2.3. MLLM和Diffusion关系 3. 多模态在产品中的技术挑战 3.1 当前MLLM的局限和分析:Reasoning, Charts & Multilingual, Hallucination 3.2 一些改进方向。 3.21 Train multimodal from scratch 3.22 Better and Modular Encoder 3.23 Vision replace Text 4. 将多模态应用于文档和社交产品 4.1 Multimodal RAG,Multimodal-conditioned generation 4.2 MLLM and Diffusion Co-design 5. 展望 5.1 多模态Agent 5.2 人与AI协同演进

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号