潘欣 | 2024全球机器学习技术大会

免费领取大会全套演讲PPT

报名领取

我要参会

潘欣

闪极AI CTO

主要从事Diffusion, MLLM模型的研发和应用。AI工程和算法十年工作经验，曾在Google Brain参与TensorFlow、TPU开发和CV、NLP、Speech深度学习算法研究。负责百度飞桨从0到1的重构。开发腾讯无量推荐系统，支撑腾讯数亿DAU用户的内容推荐。负责字节AIGC和视觉大模型AI平台，支持抖音、Tiktok、剪映等产品。

演讲主题

多模态技术和应用

1.历史回顾 CV、NLP、Speech从弱到强、从多阶段走向端到端，从分裂走向融合 2. Diffusion和Multimodal-LLM介绍 2.1 Diffusion的演进 2.2 MLLM的演进 2.3. MLLM和Diffusion关系 3. 多模态在产品中的技术挑战 3.1 当前MLLM的局限和分析：Reasoning, Charts & Multilingual, Hallucination 3.2 一些改进方向。 3.21 Train multimodal from scratch 3.22 Better and Modular Encoder 3.23 Vision replace Text 4. 将多模态应用于文档和社交产品 4.1 Multimodal RAG，Multimodal-conditioned generation 4.2 MLLM and Diffusion Co-design 5. 展望 5.1 多模态Agent 5.2 人与AI协同演进

Boolan 秉承“全球专家，连接智慧”的宗旨，通过汇聚全球顶尖IT技术专家，致力于为广大企业用户提供高端IT技术和产品领域的技术咨询、技术会议、企业内训、专家讲座、研讨会、测评认证等服务。

Boolan公众号

扫一扫，获取大会最新内容

沪ICP备15014563号-6