免费领取大会全套演讲PPT    

报名领取

我要参会

董善东

阿里云高级技术专家

董善东 博士 阿里云高级技术专家 董善东 博士, 花名梵登。 阿里云钻石布道师, 被评为“中国信通院2023可观测性领域”年度专家。 目前为可观测AIOps负责人,负责可观测AIOps建设及商业化发展、智能运维大模型的探索等。 主导了AIOps产品Insights的关键能力建设,包括构建了APM领域的检测和故障定位模型,提升了异常检测的准确率至95%以上,故障定位的准确率至87%以上。带领ARMS入选2022“Gartner APM与可观测”魔力象限, 获得2023信通院“根因分析技术”先进级认证,等。 本科毕业于南京大学信息工程系。博士毕业于新加坡国立大学电子计算机系, 期间研究方向主要为智能传感系统、信号处理等。

演讲主题

大模型在可观测AIOps的探索和应用实践

在云原生时代,运维团队面临着数据质量波动、标注不足以及链路信息不完整等重大挑战,这些障碍严重影响了AIOps(智能运维)的有效实施。监控数据的不确定性增加了运维任务的复杂度,使得从海量数据中提取有用信息并作出快速响应变得更加困难。 大模型强大的涌现能力和推理能力,为AIOps在复杂架构下提供更精准的数据关联和诊断提供了可能。 阿里云可观测团队通过AIOp结合大模型应用, 探索了利用大模型进行知识问答和PromQL查询生成,极大地简化了对监控数据的查询与分析过程。此外,大模型在提供上下文明确的告警方面表现出色,通过与ChatOps机器人的整合,实现了更加自然和人性化的交互方式。这些实践不仅提高了诊断效率,也为系统异常的快速解决提供了有力支持。 然而,大模型作为AIOps实施中的双刃剑,同时也带来了一系列新的挑战,包括模型的解释性问题和与现有系统的集成问题。基于ReAct框架的agent协同诊断方案为这些挑战提供了可能的解决路径,使得AIOps不再局限于单一的自动化任务,而是朝着更加协同和自适应的方向发展。展望未来,我们预测大模型将继续在可观测性领域中扮演关键角色,推动AIOps技术的进一步发展和创新。 技术分享大纲 1. 引言:云原生时代的运维数据挑战 ○ 分析监控运维数据质量波动、标注不足和链路信息缺失的问题 ○ 探讨这些挑战如何影响AIOps的有效实施 2. 阿里云可观测大模型实践:解锁复杂架构的诊断之钥 ○ 分享大模型在可观测中的典型应用:知识问答、PromQL生成 ○ 探索大模型在处理复杂系统诊断问题中的实践 ○ 讨论在明确上下文的告警中,通过大模型来助力ChatOps机器人“说人话” 3. 大模型的双刃剑:对AIOps的影响与挑战 ○ 分析大模型如何为AIOps带来变革,以及可能带来的新挑战 ○ 探讨基于ReAct框架的agent协同的诊断方案的价值? 4. 总结与前瞻:可观测大模型的未来探索 ○ 对未来大模型给可观测领域发展方向进行展望

© boolan.com 博览 版权所有

沪ICP备15014563号-6

沪公网安备31011502003949号