吴保东
无问芯穹技术副总裁
吴保东,无问芯穹技术副总裁,中国科学院计算技术研究所博士、清华大学博士后,ACM SIGHPC 中国优秀博士论文奖获得者。长期深耕高性能计算、并行计算、集群调度及大模型训练系统等方向研究,在 SC、TPDS、IPDPS、ICDCS 等国际顶级会议和期刊发表论文 10 余篇,并获 ICDCS 2020 最佳论文提名。 曾在商汤科技主导了AI 计算平台从 0 到 1 的建设,实现 2 万余张 GPU 的统一纳管与调度。现负责无问芯穹一站式 AI 平台核心技术研发,构建了国内首个异构、异地、异属算力统一调度平台,纳管超过 10 种芯片、25000P 以上算力资源,实现了大模型容错训练系统、分布式推理服务及任务故障预测等关键技术规模化落地。
演讲主题
基于Agentic Infra 的 AIOps智能体系统:面向多GPU集群的自动化运维破局与实践
随着大模型算力需求爆发,GPU 算力基础设施已从单一集群演进为跨地域、多架构的多集群协同环境,其运维复杂度呈指数级增长。传统的运维模式在面对异构硬件故障、RDMA 网络拓扑差异及高性能存储耦合等“黑盒”问题时,常面临告警风暴频发、跨集群定位难、处理时效低等瓶颈。针对上述问题,我们首先通过对数千条真实运维记录的结构化重构,构建了行业领先的针对多场景的 GPU 运维 Benchmark 与专家知识库。随后,基于自研的 Agentic Infra 框架,研发了面向多GPU集群运维场景的AIops智能体系统。该系统通过控制智能体实现全局任务编排,下设查询、告警处理、部署交付与自动巡检四大专项智能体,具备跨集群的状态感知与治理能力。实测结果表明,在多集群并发故障场景下,该系统将 MTTR(平均故障修复时间)降低了 90% 以上,实现了从“人工被动响应”到“跨集群 AI 主动治理”的智能化转型。 听众受益: