免费领取《AI原生软件研发成熟度模型 AISMM》白皮书    

点击领取

我要参会

王沛雨

昆仑万维多模态大模型Tech lead

王沛雨,昆仑万维多模态 Tech Lead,主要研究方向包括多模态理解和生成、视频生成和世界模型。先后参与发布 skywork‑r1v(多模态推理)、unipic(理解生成一体化)、matrix game(世界模型)和 skyreels(视频生成)等系列开源模型,上述模型在发布时均为该领域的 SOTA 的开源模型,在 Huggingface上累计超过百万次下载量,收获开源社区广泛好评。他对多模态理解与生成、视频生成及世界模型领域具备深厚的理论认知与丰富的实践经验。

演讲主题

从视频生成到世界模型:多模态生成技术的演进与实践

随着生成式 AI 的发展,视频生成模型正从“内容生成工具”逐步演进为能够理解环境、预测未来状态的 世界模型(World Model)。本次分享将结合我在昆仑万维参与的多个开源项目实践,包括视频生成模型与 Matrix-Game系列世界模型,系统介绍从视频生成到交互式世界模型的关键技术路径。内容将重点探讨视频生成中的长序列一致性,以及如何通过动作条件建模与自回归扩散架构,将视频生成能力扩展为能够实时响应交互、预测环境变化的世界模型。通过真实工程案例,分享多模态数据构建、模型架构设计与训练策略的实践经验,并探讨生成式 AI 在虚拟世界、智能体训练与机器人仿真中的未来应用。 在过去几年中,视频生成模型经历了一次非常重要的范式变化——从离线内容生成逐渐演进为可以模拟环境的世界模型。 在视频生成阶段,我们发布了 SkyReels系列,这是一个统一的视频与音频生成基础模型。它采用 Multimodal Diffusion Transformer(MMDiT) 架构,将视频扩散模型与音频扩散模型进行双流建模,并通过统一的多模态编码器对文本、图像和视频条件进行联合理解。这种结构使模型不仅可以进行 text-to-video 生成,还可以完成 video editing、video extension、audio synchronization 等任务。例如,当输入一段人物演奏吉他的图像时,模型不仅能够生成连续的视频帧,还能生成与手部动作同步的音乐音频,从而实现完整的音视频生成。 但视频生成本质上仍然是 离线生成内容。如果我们希望 AI 能够真正理解和预测环境,就需要引入“动作”这一变量。因此我们进一步提出了 Matrix-Game。在这个模型中,视频生成不再只是预测下一帧,而是 预测“环境在给定动作下的未来状态”。我们构建了一个包含上千小时交互数据的训练集,每一帧视频都与键盘和鼠标动作进行对齐。模型采用 自回归少步扩散(Few-step Autoregressive Diffusion) 架构,在生成过程中将动作 embedding 注入到生成网络中,使模型能够根据输入动作实时生成新的视觉状态。在实际系统中,该模型可以以实时 的速度连续生成视频流,并对用户操作作出实时响应。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号