彭晗
蚂蚁集团高级算法专家,百灵多模态大模型后训练算法负责人
牛津大学物理学博士,曾任牛津大学视觉几何组(VGG)博士后及谷歌资深软件工程师,期间负责计算机视觉与 Agent 技术在工业级场景的规模化应用。现任蚂蚁集团高级算法专家、百灵多模态大模型后训练算法负责人,作为核心贡献者,参与打造千亿参数的全模态开源大模型 Ming-flash-omni,目前专注于多模态基础模型的后训练、逻辑推理及下一代智能体技术。
演讲主题
百灵多模态Ming-Omni研发实践与探索
在春节前夕,百灵团队推出了总参数量达100B的开源MoE多模态基座模型:Ming-flash-omni-2.0,致力于打造能看、能听、能说、能画的全能AI。与前代模型相比,新版在多模态理解、逻辑推理、图像生成与编辑、语音识别及音频生成等核心维度均实现了大幅跃升,并在多个权威榜单取得了SOTA结果。 这一突破得益于两方面的迭代进步:首先从 Ming-lite-omni 到 Ming-flash-omni-preview,我们验证了模型规模对性能的提升作用;此后从 Ming-flash-omni-preview 到Ming-flash-omni-2.0,通过海量数据的精细化打磨,实现全模态模型的新SOTA。Ming-flash-omni-2.0的推出有力证明了,基于统一架构的全模态模型,完全有能力在成为“博学通才”的同时,兼任特定模态领域的“顶尖专家”。