孙豪泽
百川智能多模态算法专家
2017年毕业于北京大学,在NLP,搜索和推荐领域均有过行业一线的实践经历。加入百川智能以来先后从事文本预训练,SFT,code Agent以及多模态预训练相关工作,近期专注于全模态模型,特别是语音端到端模型的算法探索。目前开源的Baichuan-Omni-1.5全模态模型在文本能力,图像/视频理解,语音理解和生成效果上取得了最佳的平衡。
演讲主题
Baichuan-Omni-1.5:百川智能在端到端多模态大模型的实践探索
简介: 全模态端到端模型作为一种新兴的技术范式,其发展前景备受关注,然而全模态模型的数据组织和训练过程面临多模态能力平衡,语音模态“降智”等诸多挑战。本次分享将带来百川智能多模态团队的实践经验,与行业同仁共同探讨促进全模态模型的发展。 大纲: 1.Baichuan-Omni-1.5全模态模型架构和训练方法介绍。 2.统一语音理解与生成--百川的技术实践与思考。 3.全模态模型的未来展望。