趣丸运维 AI Agent 从1.0到2.0的自学习进化实战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
相关话题: #AI Agent
1. 趣丸运维 AI Agent 从 1.0 到 2.0 的自学习进化实战 黄金
2. 黄金 趣丸网络-基础架构负责人 现任趣丸科技基础架构组负责人,负责多云基础设施建设和研发效能 相关平台。10年工作经验,专注于多云基础设施和AIGC赋能项目。 请替换 您的照片 在容器技术、高可用系统架构设计以及人工智能领域积累了丰富的实 践经验。积极参与开源贡献,多次在国内知名技术峰会上分享。目前 正积极探索AIGC技术在研发流程中的创新赋能方式。
3. 目录 01 机遇与挑战:大模型驱动的智能运维 Agent 新范式 02 从 0 到 1:趣丸运维 Agent 1.0 的落地与反思 03 自我进化:Agent 2.0 的自学习机制与技术路径 04 未来图景:目标驱动的主动式人机协同新方向
4.
5. 01 机遇与挑战 大模型驱动下的智能运维 Agent 新范式
6. 传统智能运维的困境 泛化能力弱,规则系统维护成本高 依赖人工经验,知识传承断层 传统智能运维系统往往针对特定场景设计,缺乏 运维工作严重依赖于个人经验,缺乏有效的知识 通用性,导致规则系统在面对新问题时需要频繁 共享机制,导致经验无法有效传承,新一代运维 调整,增加了维护成本和时间。 人机缺乏协同,模型结果无法干预 人员难以快速掌握关键技能。 非结构化数据处理难题 传统智能运维系统往往缺乏与人工的有效协同机 运维中遇到的大量日志和告警信息通常是非结构 制,模型产生的结果无法得到及时的人工干预和 化的,缺乏有效的工具和技术来高效关联和分析 校正,限制了系统的灵活性和准确性。 这些数据,影响了问题的快速定位和解决。
7. LLM Agent 在运维中的机会 认知到决策的智能化闭环 AI Agent 通过从认知到决策的闭环,将 自然语言驱动的运维一体化 利用自然语言处理技术,AI Agent 可以 传统的自动化升级为智能化,从而提高 运维效率和准确性。 创建一个统一的入口,实现查询、监控 和操作的一体化,简化运维流程。 面向任务的自适应推理能力 AI Agent 能够根据任务需求进行自适应 人机协作模式的优化 AI Agent 与人类运维人员的协作模式优 化,使得人员可以专注于裁决和把关, 而让 Agent 执行繁重的日常运维工作。 推理,更稳健地处理各种边界情况和异 常,提升问题解决的灵活性。
8. 运维场景的特殊性 01 02 低容错空间 复杂多模态输入 运维场景中,AI Agent需容错率低以确保系统稳定, 运维AI Agent需处理文本、图片等输入,要有强多模 执行任务时强制确认操作,过程可控。同时,需配套 态理解能力,集成算法解析数据以准确决策响应。 权限控制、操作审计及快速回滚机制保障系统安全。 03 04 私域数据为主 实时性要求 AI Agent处理企业私域数据,如术语、流程等,这些 AI Agent在运维场景需具备实时性,快速响应系统变 数据对企业决策至关重要。它依赖实时内部数据,确 化,实时监控并处理异常。这要求其有高效数据处理 保决策准确实用。 和快速决策能力,以提高运维效率和系统可靠性。
9. 大模型在运维场景的落地思路 五层基石理论
10. 大模型在智能运维上的进化方向 支持问答与数据分析 协助执行操作 主动规划与指导 AI Agent通过问答和数据 在人类协助下,AI Agent AI Agent能主动规划并指 分析提供决策支持,帮助 可执行特定任务,减轻工 导人类,完成复杂协作任 用户理解复杂信息。 作负担。 务。
11. 02 从0 到1 智能运维Agent 1.0 落地与反思
12. AI Agent 技术落地的问题和挑战 稳定性 时效性 生成式模型在长对话或复杂任务中可能表现出幻 觉、不一致或性能退化。这些问题往往源自模型缺 乏因果推理能力、对语境极端敏感以及内部随机 性。 运维场景下的决策通常需要实时或准实时响应,若 AI Agent 在信息处理、模型推理或指令下发阶段 耗时过长,会直接影响问题定位与恢复效率,导致 整体 MTTR 延长。 成本 准确性 设计 AI Agent 时需综合考虑模型大小、推理并行 度、硬件选择以及是否采用知识检索或蒸馏等技 术,以在效果与成本之间平衡。同时上线文的管理 方式、记忆与工具等都会为模型调用带来额外的成 本消耗 LLM 存在知识截断、知识鸿沟等问题——无法覆 盖企业内部专有系统、最新架构与配置数据,易产 生错误推断。削弱运维人员信任。
13. 趣丸运维Agent 1.0演进路线 阶段 一 用户决定使用哪个Agent 阶段 二 路由Agent决定使用哪个Agent 阶段 三 主持Agent协调多个Agent工作
14. Agent 1.0实现 双思维链模型 《思考的快与慢》 基于系统一与系统二多Agent协作模型
15. 运维Agent1.0架构
16. Agent 1.0落地场景与成效
17. 智能运维Agent的应用场景-知识问答
18. 智能运维Agent的应用场景-资源查询
19. 智能运维Agent的应用场景-异常定位
20. 智能运维Agent的应用场景-辅助提单
21. 智能运维Agent的应用场景-故障管理
22. Agent 1.0落地问题与反思 私域术语理解不足问题 2 在处理企业私域的特定术语和流程时,Agent 多 Agent 协作信息丢失 3 在多 Agent 协作的场景中,信息丢失问题凸 1.0 表现出理解不足,这直接影响了其回答问 显,关键信息未能得到充分记忆和利用,影响 题的准确性和满足企业需求的能力。 了协作效率和成果质量。 1 4 长期任务规划的挑战 人类介入与反馈机制缺失 Agent 1.0在执行长期任务时,由于缺乏有效 的规划,难以保持跨步骤的一致性,导致任务 执行效率和效果不佳 Agent 1.0在运行过程中,由于缺少人类的高 质量反馈和裁决,难以及时修正错误和优化性 问题 能,导致问题持续存在。
23. Agent 1.0落地问题与反思 三大问题 私域数据 • 听不懂内部俗语 • 不了解组织约定 • 不遵循流程、规范和内部经验 1 上下文 • 缺乏人员上线文,数据范围、任务参数错误 • 多会话依赖无记忆,需要人员反复输出参数 • 多Agent 协作,参数不全,任务使用默认参数 2 运维协作 • 通过聊天方式授权/校验,完全依赖LLM ,过程不可靠 • 运维难以参与任务执行过程,反馈可能导致上下文混 乱 3 私域知识 通用LLM ,缺乏对企业内部知识的了解 上下文 人员背景、任务背景、内部协作上下文决定了任 务执行的准确度 运维协作 安全、可高的协作机制是代替运维执行操作的关 键保障,用户反馈是决定任务能否继续的关键。
24. 03 自我进化 运维 Agent 2.0 的自学习机制与技术路径
25. 新技术带来的新思路 一.AI Agent综述 二.Everything is context engineering 三.checkpointer
26. 私有数据问题 微调 工具调用能力 微调 是不是有工具了,LLM 就能正确完成任务? 标注 最重要的: 微调 在什么时机/场景下组合使用什么样的工具 DeekSeek R1 带来的启示: 使用少量高质量监督数据作为冷启动,再结合强化学习微调,能够显著提升大型语言模型的推理性能
27. 自学习流程 一种格式 · 三种能力(GRPO ) GRPO (Generalized Reinforced Policy Optimization ) 基于反馈强化的自学习框架,持续优化 Agent 的执行与推理。 1. Function Call :学习工具调用与参数化。 2. 基础知识:积累与优化领域经验。 3. 推理规划:任务分解与策略演化。 反馈- > 数据- > 效果
28. 上下文工程 历史压缩 对话与任务隔离 • 同一意图共享完成上下文 • 不同意图压缩上下文
29. 上下文工程-上下文隔离 Copliot:与用户持续对话,理解用户意图,引导用户推进任务完成 Agent: 规划任务,分析任务必要条件,执行具体步骤 Copilot与用户共享对话Context Copilot与Agent 共享任务Context 任务Context 通过任务面板管理
30. 上下文工程-记忆 存储记忆是为了召回,召回方式部分决定 记忆存储方式。 • 必须召回 • 可选召回
31. 人机协作 四种设计模式实现方式: 批准或拒绝:关键步骤前暂停审查,可阻止执行并采取其他 操作,通常涉及人工输入路由。 编辑状态:审查编辑状态,用于纠错或更新,通常涉及人工 输入。 审查工具调用:工具执行前暂停审查编辑工具调用。 验证人工输入:继续前暂停验证人工输入。 LLM Return Human In The Loop
32. 人机协作 LLM Return 方式 依赖LLM 能力与Prompt 易出现出现跳过、反复确认等问题 HITL 方式 不依赖LLM 能力,完全可控
33. Agent2.0 架构 高质量的人类标注数据对模 型效果提升具有基础性作 用——它是模型学到“正确规 律”、展示“强泛化能力”、避 免“偏差/失效情况”的关键
34. Agent 数据循环的构建 标注: • 自动化标注 通过大量未反馈错误的例子,模型自己总结标注 • 用户反馈标注 通过用户主动反馈标注数据 构建从用户反馈到效果优化的闭环数据链路是确保Agent落地效果的重要一环
35. Agent 数据循环的构建 用户反馈界面 过程数据采集 在构建 Agent 数据循环时,不能只记录结果,更要完整采集模型的推理与 决策链路,才能实现可追溯的问题分析与持续的策略优化。
36. Agent 指标 三大关键指标 错误率 对话完成率 主动好频率 场景理解是否正确 对话的话流畅性 用户对结果的认可情况 规划的合理性 Agent 对用户的引导 交互风格是否让人满意 工具调用准确性 对上下文信息的理解
37. 视频演示-WEB端展示
38. 04 未来图景 目标驱动的主动式人机协同新方向
39. 目标驱动 基于共同目标的主动思考 基于共同目标/利益 • 角色预设 基于个人价值 • 个人信息 主动思考 prompt 人类,从人类得到反馈与协助 主动故障恢复协作流程
40. 主动故障助手 ✓ 主动识别/执行问题 ✓ 提出建议、主动推进故障进度
41. 分险治理私人助手(基于个人目标/数据) ✓ 定时巡检风险 ✓ 推荐解决方案 ✓ 一站式解决
42.
43. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-03 06:38
浙ICP备14020137号-1 $访客地图$