声动未来:AIOps 驱动下的智能运维新范式

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:边雪冬
2. 01 02 03
3.
4. 01
5. 感知 质量 决策 成本 效率 执行
6. DevOps 开发 测试 编译 事件编排 作业编排 SRE 容器编排 资产编排 预发布 灰度 MTBF 混沌实验 运营 全量 MTTR MTTI MTTA MTTL MTTT MTTV 故障发现 故障响应 故障定位 故障解决 故障验证 监控告警 OnCall 可观测 故障自愈 业务验证 日常巡检 ChatOps DataOps 服务熔断 监控数据 用户反馈 人员互备 事件管理 限流降级 用户反馈 异常检测 故障预案 根因分析 操作事物 服务状态 应急预案 事件复盘 改进调优 容量评估 变更管理 护航巡检 全联路压测 腾讯云 MTTF 云原生 Iaas mTKE CDB CLB NoSql 观云数据 TDW 。。
7. 02
8. 网络接入层: N: 网络监控 C: CDN监控 D: 数据层监控 服务监控: Y: 业务监控 R: 返回码监控 S:测速系统 A: 自动化测试 M: 模块间调用 C: 组件监控 基础监控: L: 容量管理 P: 进程监控 F: 特性监控 移动端监控: T: 舆情监控 K: 卡慢监控 D: 多维监控 T K D R A S F N N F L F M A C M C Y C F L P 客户端(用户端) GSLB IDC 自建CDN C TGW /LVS Y WEB层(proxy/nginx) 中间层(SPP/SRF/going) 数据层(Redis/Mysql) M M D OS/服务器 C Y 自建网关 自研服务 Redis/Mysql
9. 计算模型 1. 算样本平均值(同比、环比) m=(1/n)*(a[0]+a[1]+...+a[n-1]) 2. 算样本方差sigma^2 sigma^2=[1/(n-1)]*{(a[0]- m)^2+(a[2]-m)^2+...+(a[n-1]-m)^2} 3.把样本方差开平方得出样本标 准差sigma值 样本标准差sigma值(即相对倍数) = 样本方差开平方 时间戳 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 2025/06/26 当前值 8:02 8:03 8:04 8:05 8:06 8:07 8:08 8:09 8:10 8:11 8:12 8:13 8:14 8:15 99.90092 99.87273 99.56220 99.20713 99.49442 99.62342 99.83025 99.92200 99.92642 99.91498 99.91798 99.55671 99.15324 99.60474 相对参照值 相对倍数 波动倍数 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 99.95537 0.03209 -1.69679 0.03209 -2.57526 0.03209 -12.2521 0.03209 -23.31692 0.03209 -14.36429 0.03209 -10.34434 0.03209 -3.89903 0.03209 -1.03989 0.03209 -0.90215 0.03209 -1.25865 0.03209 -1.16516 0.03209 -12.42318 0.03209 -24.99626 0.03209 -10.92646 调配参数 调配参数 折算值 下线 上线 -3 -13 0 -3 -13 0 -3 -13 1 -3 -13 2 -3 -13 2 -3 -13 1 -3 -13 0 -3 -13 0 -3 -13 0 -3 -13 0 -3 -13 0 -3 -13 1 -3 -13 2 -3 -13 1
10. 1 102010201 2 101001000101 3 1222120000000000 1 | 2 | 3 | 4 | 5 | 折算值累计到达8触发告警 累计值小于3时,间隔2个正常点清空计数 累计值等于3时,间隔3个正常点清空计数 累计值大于等于4,小于6时,间隔3个正常点情况计数 同时会记录告警的开始时间,结束时间, 告警时间点数,总异常时间点数,总记录数,告警次数,告警累计值
11. 六月 七月 八月 九月 通知人 告警数 占比 通知人 告警数 占比 通知人 告警数 占比 通知人 告警数 占比 *** *** *** 3401 1757 633 27.52% 14.22% 5.12% *** *** *** 1079 449 424 12.36% 5.14% 4.86% *** *** *** 328 313 293 7.22% 6.89% 6.45% *** *** *** 231 200 173 6.81% 5.90% 5.10% *** *** *** 497 425 420 4.02% 3.44% 3.40% *** *** *** 405 394 369 4.64% 4.51% 4.23% *** *** *** 256 221 216 5.63% 4.86% 4.75% *** *** *** 163 145 145 4.81% 4.28% 4.28% *** *** *** *** *** *** *** *** *** *** *** *** *** 417 411 365 360 324 237 231 226 197 176 175 173 167 3.37% 3.33% 2.95% 2.91% 2.62% 1.92% 1.87% 1.83% 1.59% 1.42% 1.42% 1.40% 1.35% *** *** *** *** *** *** *** *** *** *** *** *** *** 349 320 289 277 258 223 212 211 207 201 188 174 166 4.00% 3.67% 3.31% 3.17% 2.96% 2.55% 2.43% 2.42% 2.37% 2.30% 2.15% 1.99% 1.90% *** *** *** *** *** *** *** *** *** *** *** *** *** 211 201 161 135 134 132 132 121 107 103 102 96 83 4.64% 4.42% 3.54% 2.97% 2.95% 2.90% 2.90% 2.66% 2.35% 2.27% 2.24% 2.11% 1.83% *** *** *** *** *** *** *** *** *** *** *** *** *** 138 130 118 115 104 98 90 87 85 84 81 80 78 4.07% 3.83% 3.48% 3.39% 3.07% 2.89% 2.65% 2.57% 2.51% 2.48% 2.39% 2.36% 2.30% *** 144 1.17% *** 164 1.88% *** 77 1.69% *** 75 2.21% *** 137 1.11% *** 156 1.79% *** 73 1.61% *** 68 2.01%
12.
13. 工具箱Agent 组件 mTKE 基础信息 容量分析 调匀 基础信息 容量分析 调度/调匀 告警 权限 成本 告警 重建 部署 分配 健康检查 文档 成本 健康检查 文档 可观测 Devops 熔断 限流 链路 染色 健康检查 耗时分析 容量分析 文档 自愈能力 一键排障 健康检查 文档
14. 可用区聚集 自动调度 网络检测 自动驱逐 Node聚集 Node检测 (IP检测) 链路分析 根因分析 单条告警 分类 自动重建 单点聚集 Pod检测 返回码聚集 返回码知识库 沉淀 标准解决方案 发布变更 代码仓库 变更关联 沉淀 标准解决方案 组件检测 搬迁 / 调 匀 / 扩容 日志分析 组件分析 影响面 SLA 串联哈勃 -> 模调 -> 组件告警
15. 陡增分析,标红展示 支持流量、质量 • 上下游扩展 • 关联告警 • 陡增分析 - 流量 - 请求量 - 延时 • 聚集分析 • 关联存储 • 关联变更 • 返回码信息 • 数据静态化 • 移动端展示 上下游扩展一层 关联告警,展示状态
16.
17.
18. 分析 自愈阶段 质量提升 自愈能力 服务变更升级, 3.33% IP聚集, 20.74% 发布可观测 服务高负载, 0.00% 业务逻辑错误, 38.25% 服务网络故障, 4.90% 机器CoreDump, 0.09% 路由错误, 14.70% 机器OOM, 0.23% 机器磁盘告警, 0.02% 未知原因, 16.60% 流量突增, 熔断限流, 0.30% 0.10% 专家库积累 机器高负载, 0.74% 组件自愈 mTKE 智能诊断 挖掘根因 解决问题
19. ② 告警配置 ① 多维趋势对比 ③ 多维度指标聚合 ④ 返回码推荐标注
20.
21. 数 据 来 源 DataProxy TDW / TBDS D2K TDBank 实时接入 HDFS 持久化数据 Kafka ideX 数据分析 US 离线任务 TubeMQ 实时计算 自研云 数 据 加 工 Flink 广州 Flink 上海 结 果 数 据 存 储 Flink 香港 ES Kafka 统一 查询 服务 Flink 广州 Flink 上海 Flink 北京 DB 存储 Monitor Grafana Superset AIOps 智能问答 Dashboard Mail 总结归因 动态调参 CPU 流量 内存 硬盘 模调 微服务 哈勃 流媒体 存储 OOM core … 消 息 通 道 消息Push 自定义告警 JDBC 实时计算 公有云 数 据 报 表 护航 Dove 基础告警 StarRocks Druid mTKE 平台赋能 创建策略 策略操作 维度周期 启停变更 元数据 性能数据 筛选模型 告警历史 监控数据 日志数据 触发算法 执行详情 任务系统 MQ
22.
23. 拓扑链路分析 基于拓扑+调用链路 理解故障影响半径 辅助根因分析 智能化结果快捷下钻 主动挖掘关联数据源 事件+告警 更便利于查看告警 是否与事件相关 多指标并列对比 查看同一时刻各个指标变化
24. 03
25. ChatOps MCP Tools DataOps 组件 问答 操作 排障 扩容 成本 链路 咨询 缩容 mTKE 路由 文档 调匀 变更 日志 关键字 搬迁 监控告警 业务指标 Agent MCP server CKV CKV+ cmongo CDB Kafka mTKE 基础信息 容量分析 调匀 基础信息 容量分析 调度/调匀 告警 权限 成本 告警 重建 部署 分配 健康检查 文档 成本 健康检查 文档 可观测 Devops 熔断 限流 链路 染色 健康检查 耗时分析 容量分析 文档 日志分析 Pulsar 微服务 Devops 一键排障 mTKE 健康检查 观云数据 文档 TDW
26. 算法,基于历史波动数据学 习 22,33,99,32,11… 活动 22,33,99,32,11… 节假日 22,33,99,32,11… 变更 Xgbooset + Prophet 模型训练 异常分类器 同比 环比 活动 3Sigma Prophet 节假日 提 取 特 征 异常:1
27. 级别 英文 中文 要求 1级 Initial Level 初始级 依靠个人经验 2级 Basic Level 基础级 具备规范,但依 赖人工 3级 Comprehensiv e Level 4级 Excellent Level 5级 Fabulous Level 全面级 优秀级 卓越级 具备规范化流程,运维 能力工具化 自动化(不涉及 AI能力) 智能化、可视化 稳定性 安全 性能 成本 运营运维 服务 解耦 资源安全 分析工具 成本可视 组织架构 高可用 架构安全 分析报告 成本分析 团队建设 熔断限流 应用安全 性能优化 成本管理 基础设施 稳定 内容安全 实验检验 成本优化 可运维性 数据安全 可观测性 变更管理 应急管理 故障/事件 管理 入网测试 事故演练
28. 容器 感知 微服务 云原生 数字化运 决策 执行 DevOps 维体系 AiOps 全业务数字化体 系 知识库问答 智能分析 自愈
29.
30.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-20 18:45
浙ICP备14020137号-1 $访客地图$