孙亚博
金山办公资深算法工程师
专注于大语言模型(LLM)与多模态领域,主导金山办公政务大模型预训练体系建设,深度参与Monkey系列模型开发及多模态训练落地。从0到1打造金山办公图片翻译能力,实现端到端版式理解与多语种翻译链路。致力于将大模型技术与真实办公场景深度融合,推动智能办公产品规模化应用。
演讲主题
办公领域多模态的探索与实践
分享金山办公在办公场景下多模态技术的探索与实践经验。以Monkey系列模型为核心,结合大语言模型(LLM)与多模态技术,构建了一套面向文档理解与图片翻译的智能办公体系。在文档解析场景中,通过多模态技术实现对复杂版式文档的精准解析和信息抽取。在图片翻译场景中,从0到1打造端到端的版式理解与多语种翻译链路,实现文字识别、语义理解与翻译输出的无缝衔接。将围绕技术路线、模型优化、实际落地效果以及办公场景中的创新应用进行详细介绍,分享在多模态大模型上的实践经验和挑战,展示如何将前沿AI技术深度融合到真实办公产品中,提升用户体验与办公效率。