声动未来:AIOps 驱动下的智能运维新范式
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:边雪冬
2. 01
02
03
3.
4. 01
5. 感知
质量
决策
成本
效率
执行
6. DevOps
开发
测试
编译
事件编排
作业编排
SRE
容器编排
资产编排
预发布
灰度
MTBF
混沌实验
运营
全量
MTTR
MTTI MTTA MTTL MTTT MTTV
故障发现 故障响应 故障定位 故障解决 故障验证
监控告警 OnCall 可观测 故障自愈 业务验证
日常巡检 ChatOps DataOps 服务熔断 监控数据
用户反馈 人员互备 事件管理 限流降级 用户反馈
异常检测 故障预案 根因分析 操作事物 服务状态
应急预案
事件复盘 改进调优
容量评估 变更管理
护航巡检 全联路压测
腾讯云
MTTF
云原生
Iaas
mTKE
CDB
CLB
NoSql
观云数据
TDW
。。
7. 02
8. 网络接入层:
N: 网络监控
C: CDN监控
D: 数据层监控
服务监控:
Y: 业务监控
R: 返回码监控
S:测速系统
A: 自动化测试
M: 模块间调用
C: 组件监控
基础监控:
L: 容量管理
P: 进程监控
F: 特性监控
移动端监控:
T: 舆情监控
K: 卡慢监控
D: 多维监控
T K D
R A S
F N N F L F M A C
M C Y
C F L P
客户端(用户端)
GSLB
IDC
自建CDN
C
TGW /LVS
Y
WEB层(proxy/nginx)
中间层(SPP/SRF/going)
数据层(Redis/Mysql)
M
M
D
OS/服务器
C
Y
自建网关
自研服务
Redis/Mysql
9. 计算模型
1. 算样本平均值(同比、环比)
m=(1/n)*(a[0]+a[1]+...+a[n-1])
2. 算样本方差sigma^2
sigma^2=[1/(n-1)]*{(a[0]-
m)^2+(a[2]-m)^2+...+(a[n-1]-m)^2}
3.把样本方差开平方得出样本标
准差sigma值
样本标准差sigma值(即相对倍数) =
样本方差开平方
时间戳
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
2025/06/26
当前值
8:02
8:03
8:04
8:05
8:06
8:07
8:08
8:09
8:10
8:11
8:12
8:13
8:14
8:15
99.90092
99.87273
99.56220
99.20713
99.49442
99.62342
99.83025
99.92200
99.92642
99.91498
99.91798
99.55671
99.15324
99.60474
相对参照值 相对倍数 波动倍数
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
99.95537
0.03209 -1.69679
0.03209 -2.57526
0.03209 -12.2521
0.03209 -23.31692
0.03209 -14.36429
0.03209 -10.34434
0.03209 -3.89903
0.03209 -1.03989
0.03209 -0.90215
0.03209 -1.25865
0.03209 -1.16516
0.03209 -12.42318
0.03209 -24.99626
0.03209 -10.92646
调配参数 调配参数
折算值
下线
上线
-3
-13
0
-3
-13
0
-3
-13
1
-3
-13
2
-3
-13
2
-3
-13
1
-3
-13
0
-3
-13
0
-3
-13
0
-3
-13
0
-3
-13
0
-3
-13
1
-3
-13
2
-3
-13
1
10. 1 102010201
2 101001000101
3 1222120000000000
1 |
2 |
3 |
4 |
5 |
折算值累计到达8触发告警
累计值小于3时,间隔2个正常点清空计数
累计值等于3时,间隔3个正常点清空计数
累计值大于等于4,小于6时,间隔3个正常点情况计数
同时会记录告警的开始时间,结束时间,
告警时间点数,总异常时间点数,总记录数,告警次数,告警累计值
11. 六月
七月
八月
九月
通知人 告警数 占比 通知人 告警数 占比 通知人 告警数 占比 通知人 告警数 占比
***
***
*** 3401
1757
633 27.52%
14.22%
5.12% ***
***
*** 1079
449
424 12.36%
5.14%
4.86% ***
***
*** 328
313
293 7.22%
6.89%
6.45% ***
***
*** 231
200
173 6.81%
5.90%
5.10%
***
***
*** 497
425
420 4.02%
3.44%
3.40% ***
***
*** 405
394
369 4.64%
4.51%
4.23% ***
***
*** 256
221
216 5.63%
4.86%
4.75% ***
***
*** 163
145
145 4.81%
4.28%
4.28%
***
***
***
***
***
***
***
***
***
***
***
***
*** 417
411
365
360
324
237
231
226
197
176
175
173
167 3.37%
3.33%
2.95%
2.91%
2.62%
1.92%
1.87%
1.83%
1.59%
1.42%
1.42%
1.40%
1.35% ***
***
***
***
***
***
***
***
***
***
***
***
*** 349
320
289
277
258
223
212
211
207
201
188
174
166 4.00%
3.67%
3.31%
3.17%
2.96%
2.55%
2.43%
2.42%
2.37%
2.30%
2.15%
1.99%
1.90% ***
***
***
***
***
***
***
***
***
***
***
***
*** 211
201
161
135
134
132
132
121
107
103
102
96
83 4.64%
4.42%
3.54%
2.97%
2.95%
2.90%
2.90%
2.66%
2.35%
2.27%
2.24%
2.11%
1.83% ***
***
***
***
***
***
***
***
***
***
***
***
*** 138
130
118
115
104
98
90
87
85
84
81
80
78 4.07%
3.83%
3.48%
3.39%
3.07%
2.89%
2.65%
2.57%
2.51%
2.48%
2.39%
2.36%
2.30%
*** 144 1.17% *** 164 1.88% *** 77 1.69% *** 75 2.21%
*** 137 1.11% *** 156 1.79% *** 73 1.61% *** 68 2.01%
12.
13. 工具箱Agent
组件
mTKE
基础信息 容量分析 调匀 基础信息 容量分析 调度/调匀
告警 权限 成本 告警 重建 部署
分配 健康检查 文档 成本 健康检查 文档
可观测
Devops
熔断 限流 链路
染色 健康检查 耗时分析
容量分析 文档 自愈能力
一键排障
健康检查
文档
14. 可用区聚集
自动调度
网络检测
自动驱逐
Node聚集
Node检测
(IP检测)
链路分析
根因分析
单条告警
分类
自动重建
单点聚集 Pod检测 返回码聚集 返回码知识库 沉淀
标准解决方案
发布变更 代码仓库
变更关联 沉淀
标准解决方案
组件检测 搬迁 / 调
匀 / 扩容
日志分析
组件分析
影响面
SLA
串联哈勃 -> 模调 -> 组件告警
15. 陡增分析,标红展示
支持流量、质量
• 上下游扩展
• 关联告警
• 陡增分析
- 流量
- 请求量
- 延时
• 聚集分析
• 关联存储
• 关联变更
• 返回码信息
• 数据静态化
• 移动端展示
上下游扩展一层
关联告警,展示状态
16.
17.
18. 分析
自愈阶段
质量提升
自愈能力
服务变更升级, 3.33%
IP聚集, 20.74%
发布可观测
服务高负载, 0.00%
业务逻辑错误, 38.25%
服务网络故障, 4.90%
机器CoreDump, 0.09%
路由错误, 14.70%
机器OOM, 0.23%
机器磁盘告警,
0.02%
未知原因, 16.60%
流量突增,
熔断限流, 0.30% 0.10%
专家库积累
机器高负载,
0.74%
组件自愈
mTKE
智能诊断
挖掘根因
解决问题
19. ② 告警配置
① 多维趋势对比
③ 多维度指标聚合
④ 返回码推荐标注
20.
21. 数
据
来
源
DataProxy
TDW / TBDS
D2K TDBank
实时接入 HDFS
持久化数据
Kafka ideX
数据分析 US
离线任务
TubeMQ
实时计算 自研云
数
据
加
工
Flink
广州
Flink 上海
结
果
数
据
存
储
Flink 香港
ES
Kafka
统一
查询
服务
Flink 广州
Flink 上海
Flink 北京
DB
存储
Monitor
Grafana Superset AIOps 智能问答
Dashboard Mail 总结归因 动态调参
CPU 流量 内存 硬盘
模调 微服务 哈勃 流媒体
存储 OOM core …
消
息
通
道
消息Push
自定义告警
JDBC
实时计算 公有云
数
据
报
表
护航
Dove
基础告警
StarRocks
Druid
mTKE
平台赋能
创建策略 策略操作
维度周期 启停变更
元数据 性能数据 筛选模型 告警历史
监控数据 日志数据 触发算法 执行详情
任务系统
MQ
22.
23. 拓扑链路分析
基于拓扑+调用链路
理解故障影响半径
辅助根因分析
智能化结果快捷下钻
主动挖掘关联数据源
事件+告警
更便利于查看告警
是否与事件相关
多指标并列对比
查看同一时刻各个指标变化
24. 03
25. ChatOps
MCP Tools
DataOps
组件
问答 操作 排障 扩容 成本 链路
咨询 缩容 mTKE 路由
文档 调匀 变更 日志
关键字 搬迁 监控告警 业务指标
Agent
MCP server
CKV
CKV+
cmongo
CDB
Kafka
mTKE
基础信息 容量分析 调匀 基础信息 容量分析 调度/调匀
告警 权限 成本 告警 重建 部署
分配 健康检查 文档 成本 健康检查 文档
可观测
Devops
熔断 限流 链路
染色 健康检查 耗时分析
容量分析 文档 日志分析
Pulsar
微服务
Devops
一键排障
mTKE
健康检查
观云数据
文档
TDW
26. 算法,基于历史波动数据学
习
22,33,99,32,11… 活动
22,33,99,32,11… 节假日
22,33,99,32,11… 变更
Xgbooset
+
Prophet
模型训练
异常分类器
同比
环比
活动
3Sigma
Prophet
节假日
提
取
特
征
异常:1
27. 级别
英文
中文
要求
1级 Initial Level 初始级 依靠个人经验
2级 Basic Level 基础级 具备规范,但依
赖人工
3级
Comprehensiv e
Level
4级 Excellent
Level
5级 Fabulous
Level
全面级
优秀级
卓越级
具备规范化流程,运维
能力工具化
自动化(不涉及
AI能力)
智能化、可视化
稳定性 安全 性能 成本 运营运维
服务
解耦 资源安全 分析工具 成本可视 组织架构
高可用 架构安全 分析报告 成本分析 团队建设
熔断限流 应用安全 性能优化 成本管理 基础设施
稳定 内容安全 实验检验 成本优化 可运维性 数据安全
可观测性
变更管理
应急管理
故障/事件
管理
入网测试
事故演练
28. 容器
感知
微服务
云原生
数字化运
决策
执行
DevOps
维体系
AiOps
全业务数字化体
系
知识库问答
智能分析
自愈
29.
30.