AI Agent + AI Profiling,构建高效智能运维双支柱
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:周絮
2. 01 大规模云上系统运维的特点和挑战
02 AI Profiling + AI Agent,助力云+AI运维进化
03 AI观测助力训推场景提升稳定性
04 AI Agent助力提升运维效率
3.
4. 01
大规模云上系统运维的特点和挑战
5. 大规模云上运维的特点和挑战
技术堆栈门槛高
•
•
高度依赖于Linux系统的使用和命令并且需要具有
专家技能人员,需要工具可以降低运维门槛。
咨询的场景,包括客户在售前对于产品的相关咨
询,也包括用户在使用中对于产品操作配置的相
关咨询,包括售后用户在解决问题的相关咨询。
故障定界难
•
•
指标解读难
客户与阿里云:客户应用出现故障,难以排查是客
户代码问题还是基础设施的问题。
云产品间:涉及到多云产品间的故障定位及排查,
往往链路长,定位困难。
•
•
•
监控指标爆炸式
增长及秒级抖动
盲区与现场缺失
运维时刻的碎片化
•
•
•
6. 如何给用户更好体验
降低应用的运维门
槛
应用自顶向下的分析
深度剖析问题成因 提升运维效率
基于内核深度剖析
AI辅助解决重复性问题
关联:实现系统指标与应用表象的关联; 全视角:发挥内核的全视角优势,深度分析进 知识库:通过沉淀的工单问题及操作系统知识
追踪:全链路根因追踪, 覆盖应用的调用情况和延时分 程间行为关联; 库,匹配到重复性问题并提升自服务率;
布; 内核行为:深度剖析内核自身, 以直观、可读 流程融入:将AI能力融入到运维工作的流程中,
可理解:问题根因和修复建议都是应用开发者可直接理 的形式剖析内核行为 才能发挥作用;
解和操作的。
我是开发人员
多Agent协同:将运维能力拆分成多个领域运
维问题Agent,并具备协同的能力。
我的程序为什
么卡在这?
7. 02
AI Profiling + AI Agent,
助力云+AI运维进化
8. AI Profiling + AI Agent,助力云+AI运维进化
1
1
2
AI for Maintenance:
AI 技术推动系统运维
效率提升
2
AI Profiling
3
Maintenance for AI:
运维为 AI 训推场景提
供故障及性能定位
AI Agent
3
4
9. 用户界面 控制台
扩展组件 增强能力工具
SysOM运维、KeenTune调优等系统智能辅助工具
OpenAPI
OS Copilot
CentOS安全接管服务
订阅服务
CentOS接管为代表的操作系统服务
操作系统 支持主流操作系统
原生支持Alibaba Cloud Linux,并扩展支持其他Linux操作系统
增值服务
SysOM运维服务
组件管理
控制台管理
OpenAPI
支撑架构
裸金属
ECS
容器
x86
ARM
……
10. 03
AI观测助力训推场景提升稳定性
11. 集群健康状态观测及异常发现
节点深度诊断剖析进程根因
持续追踪定位偶发问题
CPU/GPU融合分析定位性能瓶颈
12. 健康分体系
专家工具集
持续追踪技术
自动化诊断
13.
14. •
•
15. 04
AI Agent助力提升运维效率
16. 任务型机器人
17. 传统AI
大模型
18. Agent
19. •
•
•
•
•
•
20.
21. 标准化外部交互能力
初步外部交互能力
➢
➢ ➢
➢ ➢
➢
➢
➢
➢
➢
➢
➢
➢
➢
22. 在运维工作的不同场景AI的应用
服务输出
服务形式
运维流程
GTS服务团队
OS 大模型
阿里云内部团队 业务平台 社区
诊断MCP 诊断智能体 值班机器人
一线服务 工单流转 工单处理 问题复盘 知识沉淀
工单生成 AI分类 OS 大模型 AI打分 特征提取
智能答疑 值班关联 诊断智能体 特征分析 文档生成
•
•
•
•
工单分析管理
能力建设
运维产品研发
智能路由 诊断智能体
智能分析 智能宕机分析
智能报告 JVM智能调优
运维产品维护
知识库沉淀
特征识别
告警分类推送
版本自动升级
知识库智
能体
智能热修复
支撑平台
扁鹊(SysOM)
宕机中心
热补丁中心
数据中台
……
•
•
•
•
23.
24. 运维提效
通过智能命令推荐等功能
提升运维效率超50%
大量操作系统领域语料输送,在操
高质量知识 作系统领域比通用大模型更准确
命令辅助执行
根据要求推荐命令行并可直接执行
快速安装
只件需在系统中安装Copilot
组,即刻可使用OS Copilot
通过OS Copilot管理您在阿里云上
一体化体验 的资源,享受到阿里云上一体的服
务。
专业OS领域知识问答
自然语言查询系统相关知识
脚本/代码生成
支持运维脚步及简单代码的生成
场景化系统工具集成
深度集成系统工具,覆盖系统场景
25.
26.
27.
28.
29.