趣丸运维 AI Agent 从1.0到2.0的自学习进化实战

1. 趣丸运维 AI Agent 从 1.0 到 2.0 的自学习进化实战黄金

2. 黄金趣丸网络-基础架构负责人现任趣丸科技基础架构组负责人，负责多云基础设施建设和研发效能相关平台。10年工作经验，专注于多云基础设施和AIGC赋能项目。请替换您的照片在容器技术、高可用系统架构设计以及人工智能领域积累了丰富的实践经验。积极参与开源贡献，多次在国内知名技术峰会上分享。目前正积极探索AIGC技术在研发流程中的创新赋能方式。

3. 目录 01 机遇与挑战：大模型驱动的智能运维 Agent 新范式 02 从 0 到 1：趣丸运维 Agent 1.0 的落地与反思 03 自我进化：Agent 2.0 的自学习机制与技术路径 04 未来图景：目标驱动的主动式人机协同新方向

4.

5. 01 机遇与挑战大模型驱动下的智能运维 Agent 新范式

6. 传统智能运维的困境泛化能力弱，规则系统维护成本高依赖人工经验，知识传承断层传统智能运维系统往往针对特定场景设计，缺乏运维工作严重依赖于个人经验，缺乏有效的知识通用性，导致规则系统在面对新问题时需要频繁共享机制，导致经验无法有效传承，新一代运维调整，增加了维护成本和时间。人机缺乏协同，模型结果无法干预人员难以快速掌握关键技能。非结构化数据处理难题传统智能运维系统往往缺乏与人工的有效协同机运维中遇到的大量日志和告警信息通常是非结构制，模型产生的结果无法得到及时的人工干预和化的，缺乏有效的工具和技术来高效关联和分析校正，限制了系统的灵活性和准确性。这些数据，影响了问题的快速定位和解决。

7. LLM Agent 在运维中的机会认知到决策的智能化闭环 AI Agent 通过从认知到决策的闭环，将自然语言驱动的运维一体化利用自然语言处理技术，AI Agent 可以传统的自动化升级为智能化，从而提高运维效率和准确性。创建一个统一的入口，实现查询、监控和操作的一体化，简化运维流程。面向任务的自适应推理能力 AI Agent 能够根据任务需求进行自适应人机协作模式的优化 AI Agent 与人类运维人员的协作模式优化，使得人员可以专注于裁决和把关，而让 Agent 执行繁重的日常运维工作。推理，更稳健地处理各种边界情况和异常，提升问题解决的灵活性。

8. 运维场景的特殊性 01 02 低容错空间复杂多模态输入运维场景中，AI Agent需容错率低以确保系统稳定，运维AI Agent需处理文本、图片等输入，要有强多模执行任务时强制确认操作，过程可控。同时，需配套态理解能力，集成算法解析数据以准确决策响应。权限控制、操作审计及快速回滚机制保障系统安全。 03 04 私域数据为主实时性要求 AI Agent处理企业私域数据，如术语、流程等，这些 AI Agent在运维场景需具备实时性，快速响应系统变数据对企业决策至关重要。它依赖实时内部数据，确化，实时监控并处理异常。这要求其有高效数据处理保决策准确实用。和快速决策能力，以提高运维效率和系统可靠性。

9. 大模型在运维场景的落地思路五层基石理论

10. 大模型在智能运维上的进化方向支持问答与数据分析协助执行操作主动规划与指导 AI Agent通过问答和数据在人类协助下，AI Agent AI Agent能主动规划并指分析提供决策支持，帮助可执行特定任务，减轻工导人类，完成复杂协作任用户理解复杂信息。作负担。务。

11. 02 从0 到1 智能运维Agent 1.0 落地与反思

12. AI Agent 技术落地的问题和挑战稳定性时效性生成式模型在长对话或复杂任务中可能表现出幻觉、不一致或性能退化。这些问题往往源自模型缺乏因果推理能力、对语境极端敏感以及内部随机性。运维场景下的决策通常需要实时或准实时响应，若 AI Agent 在信息处理、模型推理或指令下发阶段耗时过长，会直接影响问题定位与恢复效率，导致整体 MTTR 延长。成本准确性设计 AI Agent 时需综合考虑模型大小、推理并行度、硬件选择以及是否采用知识检索或蒸馏等技术，以在效果与成本之间平衡。同时上线文的管理方式、记忆与工具等都会为模型调用带来额外的成本消耗 LLM 存在知识截断、知识鸿沟等问题——无法覆盖企业内部专有系统、最新架构与配置数据，易产生错误推断。削弱运维人员信任。

13. 趣丸运维Agent 1.0演进路线阶段一用户决定使用哪个Agent 阶段二路由Agent决定使用哪个Agent 阶段三主持Agent协调多个Agent工作

14. Agent 1.0实现双思维链模型《思考的快与慢》基于系统一与系统二多Agent协作模型

15. 运维Agent1.0架构

16. Agent 1.0落地场景与成效

17. 智能运维Agent的应用场景-知识问答

18. 智能运维Agent的应用场景-资源查询

19. 智能运维Agent的应用场景-异常定位

20. 智能运维Agent的应用场景-辅助提单

21. 智能运维Agent的应用场景-故障管理

22. Agent 1.0落地问题与反思私域术语理解不足问题 2 在处理企业私域的特定术语和流程时，Agent 多 Agent 协作信息丢失 3 在多 Agent 协作的场景中，信息丢失问题凸 1.0 表现出理解不足，这直接影响了其回答问显，关键信息未能得到充分记忆和利用，影响题的准确性和满足企业需求的能力。了协作效率和成果质量。 1 4 长期任务规划的挑战人类介入与反馈机制缺失 Agent 1.0在执行长期任务时，由于缺乏有效的规划，难以保持跨步骤的一致性，导致任务执行效率和效果不佳 Agent 1.0在运行过程中，由于缺少人类的高质量反馈和裁决，难以及时修正错误和优化性问题能，导致问题持续存在。

23. Agent 1.0落地问题与反思三大问题私域数据 • 听不懂内部俗语 • 不了解组织约定 • 不遵循流程、规范和内部经验 1 上下文 • 缺乏人员上线文，数据范围、任务参数错误 • 多会话依赖无记忆，需要人员反复输出参数 • 多Agent 协作，参数不全，任务使用默认参数 2 运维协作 • 通过聊天方式授权/校验，完全依赖LLM ，过程不可靠 • 运维难以参与任务执行过程，反馈可能导致上下文混乱 3 私域知识通用LLM ，缺乏对企业内部知识的了解上下文人员背景、任务背景、内部协作上下文决定了任务执行的准确度运维协作安全、可高的协作机制是代替运维执行操作的关键保障，用户反馈是决定任务能否继续的关键。

24. 03 自我进化运维 Agent 2.0 的自学习机制与技术路径

25. 新技术带来的新思路一．AI Agent综述二．Everything is context engineering 三．checkpointer

26. 私有数据问题微调工具调用能力微调是不是有工具了，LLM 就能正确完成任务？标注最重要的：微调在什么时机/场景下组合使用什么样的工具 DeekSeek R1 带来的启示：使用少量高质量监督数据作为冷启动，再结合强化学习微调，能够显著提升大型语言模型的推理性能

27. 自学习流程一种格式 · 三种能力（GRPO ） GRPO （Generalized Reinforced Policy Optimization ）基于反馈强化的自学习框架，持续优化 Agent 的执行与推理。 1. Function Call ：学习工具调用与参数化。 2. 基础知识：积累与优化领域经验。 3. 推理规划：任务分解与策略演化。反馈- > 数据- > 效果

28. 上下文工程历史压缩对话与任务隔离 • 同一意图共享完成上下文 • 不同意图压缩上下文

29. 上下文工程-上下文隔离 Copliot：与用户持续对话，理解用户意图，引导用户推进任务完成 Agent: 规划任务，分析任务必要条件，执行具体步骤 Copilot与用户共享对话Context Copilot与Agent 共享任务Context 任务Context 通过任务面板管理

30. 上下文工程-记忆存储记忆是为了召回，召回方式部分决定记忆存储方式。 • 必须召回 • 可选召回

31. 人机协作四种设计模式实现方式：批准或拒绝：关键步骤前暂停审查，可阻止执行并采取其他操作，通常涉及人工输入路由。编辑状态：审查编辑状态，用于纠错或更新，通常涉及人工输入。审查工具调用：工具执行前暂停审查编辑工具调用。验证人工输入：继续前暂停验证人工输入。 LLM Return Human In The Loop

32. 人机协作 LLM Return 方式依赖LLM 能力与Prompt 易出现出现跳过、反复确认等问题 HITL 方式不依赖LLM 能力，完全可控

33. Agent2.0 架构高质量的人类标注数据对模型效果提升具有基础性作用——它是模型学到“正确规律”、展示“强泛化能力”、避免“偏差／失效情况”的关键

34. Agent 数据循环的构建标注： • 自动化标注通过大量未反馈错误的例子，模型自己总结标注 • 用户反馈标注通过用户主动反馈标注数据构建从用户反馈到效果优化的闭环数据链路是确保Agent落地效果的重要一环

35. Agent 数据循环的构建用户反馈界面过程数据采集在构建 Agent 数据循环时，不能只记录结果，更要完整采集模型的推理与决策链路，才能实现可追溯的问题分析与持续的策略优化。

36. Agent 指标三大关键指标错误率对话完成率主动好频率场景理解是否正确对话的话流畅性用户对结果的认可情况规划的合理性 Agent 对用户的引导交互风格是否让人满意工具调用准确性对上下文信息的理解

37. 视频演示-WEB端展示

38. 04 未来图景目标驱动的主动式人机协同新方向

39. 目标驱动基于共同目标的主动思考基于共同目标/利益 • 角色预设基于个人价值 • 个人信息主动思考 prompt 人类，从人类得到反馈与协助主动故障恢复协作流程

40. 主动故障助手 ✓ 主动识别/执行问题 ✓ 提出建议、主动推进故障进度

41. 分险治理私人助手（基于个人目标/数据） ✓ 定时巡检风险 ✓ 推荐解决方案 ✓ 一站式解决

42.

43. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software