免费领取大会全套演讲PPT    

立即领取

解奉龙

小红书音频技术负责人

哈尔滨工业大学-微软亚洲研究院联合培养博士毕业,2015年获“微软学者”称号,2023国际语音合成大赛Blizzard Challenge单项冠军,现于小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地。打造基于大模型的语音/音乐技术前沿综合解决方案FireRed。其在语音领域会议及期刊ICASSP、INTERSPEECH、IEEE TASLP、SPEECH COMMUNICATION等发表论文数十篇。

演讲主题

FireRed-基于大模型的语音/音乐技术综合实践

简介:2024年基于大模型方案的语音/音乐技术如雨后春笋般生成出来。本次报告涵盖小红书技术团队研发了一系列语音/音乐大模型的技术详情及应用落地如FireRedASR:开源中文语音识别新sota,综合极致的精度和高效的推理需分别打造FireRed-LLM及FireRed-AED,对比此前sota Seed-ASR,中文字错率相对降低8.4%。FireRedTTS2.0: 开源中文语音合成新sota,支持zero-shot的语音克隆及human-like具有副语言想象及情感控制的自然语音生成。FireRedChat:超低延时且具有人感的大模型语音实时对话系统方案。FireRedmusic:小红书风格音乐生成的方案等。 大纲: FireRedASR:sota的大模型中文语音识别系统及应用落地 FireRedTTS2.0:sota的大模型中英文语音合成系统及应用落地 FireRedChat:低延时超自然的语音交互方案 FireRedMusic:小红书风格的音乐生成的方案

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号