王沛雨

昆仑万维多模态大模型Tech lead

负责多模态推理,多模态reward model,理解生成一体化工作。多模态推理(skywork-r1v)系列在huggface上单月累积近100k下载量。

演讲主题

多模态推理和统一模型

r1v:全球首个工业界多模态思维链推理模型,核心是迁移文本推理能力至视觉任务。架构用轻量视觉投影器连接文本与视觉模型,混合优化框架(迭代 SFT+GRPO)强化对齐,自适应思维链蒸馏提升效率。380 亿参数,MMMU 69.0、MathVista 67.5,文本推理顶尖,奠定统一多模态推理基础。 r1v2:改进混合强化学习,用 SSB 机制缓解 GRPO “优势消失”,MPO 策略融合奖励模型与规则约束,校准奖励阈值减幻觉。性能全面提升,MMMU 73.6、MathVista 74.0,缩小与闭源模型差距,平衡专项与通用能力。 r1v3:升级跨模态融合与强化学习,冷启动 RL、关键推理熵判别、优化视觉连接器、跨模态因果建模。2.5 万 + 样本训练,推理速度提 6 倍,步骤压缩至 1/6。MMMU 76.0 超部分闭源模型,接近人类初级专家水平,开源模型中多项第一。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号