免费领取大会全套演讲PPT    

点击领取

我要参会

刘树杰

微软亚洲研究院(MSRA)香港首席研究员

刘树杰博士, 微软亚洲研究院(MSRA)香港首席研究员。刘树杰于 2012 年 7 月在完成哈尔滨工业大学计算机科学与技术学院博士学位后加入 MSRA 北京,并于 2024 年 10 月调任 MSRA 香港。 他的研究方向包括口语语言处理、多模态大语言模型以及医疗人工智能,致力于利用人工智能技术提升人类生活质量。他的论文曾荣获 IEEE 2025 SPS 最佳论文奖。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。他的研究成果已经成功应用于多项微软产品中,包括 Microsoft Translator、Skype Translator、Microsoft IME、小冰,以及 Microsoft Speech Service 等。

演讲主题

基于大语言模型的零样本语音合成

随着大语言模型在自然语言处理中的应用,语音大语言模型也逐渐受到更多关注。在本报告中,我们将介绍基于大语言模型的零样本语音合成技术,即VALL-E,能够利用了大语言模型在上下文学习方面的能力,仅需使用未知说话人的三秒录音作为音频提示,即可生成高质量的个性化语音。在此基础上我们将介绍基于VALL-E的一些扩展工作,比如多语言版本的VALL-E X,解决稳定性问题的VALL-E 2,结合AR和NAR的PALLE, 以及基于连续编码的MELL-E和FELLE。

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号