初佳明
北京邮电大学博士生,TeleAI研究院AI治理实习生
北京邮电大学电子工程学院博士在读。研究方向聚焦于无训练的可控图像编辑生成和 AI 图像鉴伪。论文被ACM MM、IEEE TIP等CCF-A会议期刊收录,在 CVPR2022 SoccerNet workshop 竞赛中的Replay Grounding Track夺冠。具有大语言模型垂类领域微调经验,对信号处理、图像处理、表征学习、自然语言处理和提示词工程都有较深的研究经验。目前在中国电信人工智能实验室多媒体认知学习实验室做实习生,研究方向目前涉及镜头可控的视频生成、生成图像鉴伪和AI治理。
演讲主题
DeepSeek R1技术复现和大模型的治理与安全
随着以DeepSeek R1为代表的推理大模型技术快速发展,AI在推理效率、多模态理解等方面取得突破性进展,但其安全性与治理问题同样引发全球关注。大模型技术的复杂性可能导致潜在漏洞被忽视,而生成内容的真实性不高、缺乏对恶意攻击的防御能力等问题,直接影响技术落地的可靠性。例如,DeepSeek R1的高效推理能力虽赋能智能客服、代码生成等场景,但其在数据隐私保护、对抗性攻击鲁棒性上的表现仍需系统性验证。 我们团队围绕DeepSeek R1的技术复现与安全治理展开研究:一方面,通过开源代码复现与优化,深入解析模型架构的潜在风险点;另一方面,针对大模型自身安全性,采用红队攻击模拟提示注入、数据投毒等攻击模式,构建漏洞检测与防御方案;同时,结合多模态特征提取与对抗训练技术,研发覆盖文本、图像、视频的深度鉴伪算法,从源头遏制虚假信息传播。 这些工作不仅为DeepSeek R1等语言推理大模型的技术优化提供安全基线,更为大模型的产业应用构建可信环境,助力实现安全可控的智能化未来。 大纲:本次演讲以“DeepSeek R1技术复现和大模型的治理与安全”为议题,先介绍自身及主题,通过AI引发的如虚假信息传播、模型隐私泄露等安全事件引出AI安全治理话题;接着列举其各个领域提高效率、改变商业模式的实例展现AI发展现状;再阐述DeepSeek R1面临提示注入、数据投毒等模型风险及虚假内容传播威胁信息安全与社会秩序的情况;随后介绍团队采用红队攻击模拟挖掘模型漏洞,利用多模态技术结合图像、语言处理算法检测虚假内容的研究工作;说明这些成果对保障AI系统稳定、促进行业应用、维护社会经济秩序的意义;最后总结AI安全隐患与团队研究成果,展望安全前景,呼吁共同推动AI可持续发展 。