杨晨
字节跳动扣子罗盘服务端研发负责人
杨晨,扣子罗盘服务端技术负责人,字节跳动 AI Platform 部门技术专家,从 0-1 落地 AI AgentOps 平台,服务字节跳动Flow、抖音、电商、懂车帝等众多业务线的AI应用实践。持续关注 AI 应用开发平台的前沿动态及创新,对 AI 应用落地及效果调优有深入的理解与洞见。主导参与扣子&扣子罗盘项目开源,上线首周 GitHub Star coze-studio 11k+、coze-loop 4k+,社区关注度高,深度参与开源社区建设。
演讲主题
扣子罗盘: Agent效果评测与迭代优化实践
2025 年,Agent 从概念验证进入生产落地阶段,企业从传统 chatbot 转向多轮、多模态、跨工具的复杂智能体开发。相比传统软件测试,Agent 效果评测面临指标定义模糊、结果不确定性高、线上表现波动大等新挑战。本演讲将结合字节在多业务线 Agent 落地过程中的经验,系统解析从评测集构建、指标体系设计、到持续集成与线上监测的全链路实践方法,探讨如何在不确定的 AI 行为中建立可复用的效果评测体系,并支撑快速迭代与线上稳定运行。 大纲: 1. 引言 背景 - Agent 应用开发现状 - AgentOps:Agent 效果评测新范式 挑战 - 持续集成:区别于工程质量的确定性指标,面对大模型的不确定性,如何快速达到线上生产标准? - 线上监测:效果如何持续线上应用的效果并不断优化迭代? - 面对越发复杂智能的 Agent,如何设计好科学的指标,全方位的评判 Agent 各个环节? 2. Agent 效果评测核心流程解析 效果评测核心流程 - 测试阶段:离线评测质量准出、持续集成 - 线上阶段:在线评测持续监测效果、迭代优化 3. 扣子罗盘效果评测的实践步骤 - 构建持续迭代的评测集数据 - 多模态、多轮对话等评测集的构建方法 - 选择适合不同业务场景的评测指标 - Agent、多模态、多轮对话、一致性等业务指标设计与实践 - LLM-As-Juge、Code 等评估方法实践 - 基于灵活智能的评测实验结果,发现 badcase - 单实验分析、多实验结果的对比分析的方法 - 洞察 insight:如何用 Agent 智能发现问题给出建议 - 线上阶段持续的效果观测、优化和迭代 - 用在线评测的方式发现线上性能和效果问题 4. 用户案例 字节内部:直播业务 短视频合规审核场景,人审如何转大模型机审提效,评测集管理、多模态、多轮对话评测方法 商业化:Agent 评测解决方案 全码 Agent 应用,基于 trace 的在线评测、评测集管理能力 5. 未来规划与展望 - 复杂 Agent / Multi-Agent 如何进行更好的效果评测