阿里云弹性计算智能化监控诊断的探索和实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里云弹性计算智能化监控诊断
探索和实践
张尤
阿里巴巴高级技术专家
2.
3. 关于我
神龙计算平台-异常调度-监控&诊断
核心研发+诊断平台负责人
ECS数据&稳定性团队-性能基线
核心研发
ECS管控&工程效率
核心研发
•
2015.02
•
2016.10
•
2017.10
•
现在
4. 大纲
• 01 • 概述&背景
•
•
业务难点&客户诉求
ECS监控诊断发展历程
• 02 • 业界方案
•
•
• 03 • 我们的方案
云原生方案 • 可靠的数据采集方案
其他商业软件方案 • 根因可解释性如何解决
• 智能运维决策
• DryRun系统&评价体系
5. • 01
概述&背景
6. 类比医疗诊断技术
客户对诊断能力诉求
远程AI诊断/早期诊断
可预测
异常特征的训练和学习/不断迭代
可控制
可感知
基本稳定可靠
完善的治疗方案
客户自愈方案自动推荐
全链路根因诊断异常感知
指标量化的复杂体检
简单直接的可用性判定
简单直接的诊断手段
7. 业务难点
基础设施规模庞大
3000+
200+
网络和CDN节点
可用区(AZ)
4
大洲
~ 100,000,000+
部件
(CPUs, disks etc.)
~ 1,000,000+
设备
25+
数据中心区域(Region)
~ 5000+
集群
8. 业务难点
业务领域覆盖众多
覆盖业务领域广
X86计算
C6 计算型
G6 通用型
C5 计算型
G5 通用型
SN2NE 通用网
络增强
SN1NE 计算网
络增强
R6 内存型
I2 本地SSD
HFC6 高主频
计算型
R5 内存型
裸金属&高性能计算
异构计算
RE4 内存形 HFG6 高主频
通用型
SE1NE 内存网
络增强 HFR6 高主频
内存型
D1NE
大数据型
D2
大数据型
I1 本地SSD
D1
大数据型
GN6v GPU计算型
F3 FPGA 计算型
EBM 弹性裸金属
GN6i GPU计算型
通用计算业务
高性能高主频业务
SCC 超级计算集群
GN5 GPU计算型
本地盘存储大数据业务
E-HPC 弹性高性能计算
F1 FPGA 计算型
GA1 GPU可视化型
异构GPU业务
Web服务器;批量计算,分布
式分析,高性能科学和工程类
应用和平台;广告,游戏
高性能科学计算
高性能前端机
高性能数据库
数据挖掘和分析
Redis,Memcached
内存型数据库
中小型数据库
数据处理任务
企业后台应用
MapReduce分布式计算如
Hadoop、Spark等;分布式文
件系统;日志和数据处理
关系型数据库;NoSQL
数仓;内存型数据库
Hadoop/Spark集群(实时)
基因组学研究;视频编解码、图
像转码;金融分析
深度学习;视频处理;图
形可视化;科学计算
异构FPGA业务
高性能数据库;高性能网站前端机;
数据处理任务;企业后台应用;高性
能计算、科学计算
SCC超算业务
RDMA高性能网络
售卖
形态多
预付实例
按量实例
预留实例
竞价实例
停机不收
费实例
DDH
实例
智能机柜
实例
混合云一
体机
9. 业务难点
领域知识覆盖广且技术难度深
覆盖子系统众多
技术难度深
core
• turbo P02
• AVX P1 Freq
• AVX P0n Freq
链路长
CPU子系统监控举例
cache
• LLC访问一致性
• LLC容量
• LLC容量QOS
IMC
• IMC freq
• IMC channel
• memory buffer
10. ECS监控诊断运维发展历程
工具+人工时代
平台+半自动编排
数据化智能化
ECS正式售卖
IDC硬件监
控上线
飞天底座
监控上线
组件监控接入
Alimonitor
2010
ECS全链路诊
断平台上线
交付效能
提升10倍
接入落日弓
发布编排
2013
底层应用接入
天基&监控接
攻克底座
入XFlush
环境问题
2016
监控采集
Agent重构
Cloudops
运维平台发布
2017
智能运维
决策大脑上线
云上客户
系统事件发布
内存故障
预测上线
攻克根因
可解释性问题
监控覆盖度
99.995%
2018
策略评价
体系建设
99.9%异常自
动闭环
2019
2020-至今
11. 小结1
三个挑战
诊断结果的
规模效应下ECS
评价体系建设
监控诊断应用
架构如何设计
准确率和覆盖率如何达
成有机统一
12. • 02
业界方案
13. 业界方案及发展
AlertManger
Zabbix WebUI
Prometheus
MySQL
ZabbixServer
Grafana
Metric
TSDB
Log
ZabbixClient
ZabbixClient
Zabbix Client
BorgMon
细节公开
Cacti发布
(snmp)
Zabbix
备受追捧
ES1.0发布
2010
•
Tracing
2012
DynaTrace
AIOps
ZipKin/Jaeger
等APM软件发布
Prometheus
加入CNCF
2016
拓扑
数据化/AIOps/可观测
新监控标准+APM产品百家齐放
Nagios发布
•
•
ZabbixClient
ZabbixClient
App Exporter
传统监控时代
•
•
Pull
推送
拓扑自动分析
OneAgent通用采集
动态阈值告警
影响面自动分析
APITrace分析
故障根因分析
•
Moogsoft
Saas
AliYun
ARMS
ES APM OpenTracing
发布 OpenCensus
2017
2018
Azure
Metric-
Advisor
发布
AliyunSLS
AI分析能力
发布
2019
CNCF发布
可观测技术
雷达
2020-至今
14. • 03
我们的方案
15. ECS监控诊断架构设计-采集端设计
1
服
务
消
费
2
采集的数据回流&消费
数据
报表
监控
诊断
SLA
平台
故障
快恢
ODPS(弹内)
•
调度器轻量化改造
采集之间数据共享
ODPS(弹外)
半小时投递一次
架构改造
Blink同步
SLS
(弹内)
•
SLS
(德国)
SLS
(迪拜)
SLS
(……)
•
•
代码Review性能评审
Gamma环境性能评估
•
•
异常分析
采集准入
controller/ecs_alarm_agent(Cgroup)
•
节
点
采
集
采集
大盘
•
2小时同步
回
流
存
储
其他
系统
数据采集的异常治理闭环
EcsAlarmAgent(Daemon)
配置管理 监控管理 监控打散
监控调度 监控观测 结果存储
ClusterInfo NcInfo VmInfo
日常巡检
•
•
天基Tianji底座
异常占用实时告警
日常报表持续治理
内存泄露分析系统化
火焰图找瓶颈点
16. ECS监控诊断架构设计-服务端设计
异常感知中心
全链路诊断中心
图数据库(弱依赖)
TDDL(分库分表)
ScheduleX
(分布式定时任务)
Diamond(动态配管)
MySQL
Region3
Region3
•
ODPS
•
定时
导入
m
as
te
m
r
as
te
r
特征
•
Region2
•
Region1
优级模型
随机游走
节点选取
路径计算
m
as
te
m r
as
te
r
master
事件
中心
命中
推送
规则引擎
(主)
运维规则
知识图谱
构建
服务
降级
数据
降级
图数据库
GDB
Region1
配置管理
定时任
务调度
数据自
动补偿
SLS
&
MNS
&
ODPS
任务均衡
任务
meta
诊断策略
trigger 特征导入
规则策略
tigger 事件消费
准实时数据校验
Region2
master
故障切换
诊断模型
历史特征
关联度分析
Redis
特征导入
worker
特征抽取Task
拓扑关联
异常检测Task
消费
规则引擎(备)
中间件降级
T+1数据校验 ScheduleX降级
规则命中实时对比 Dimaond降级
拓扑维度关联服务
实时数据
降级
准实时数据
降级
T+1离线数据
(可降级)
17. ECS异常根因诊断的解决方案
1
准确性
• 故障时刻异常太多,
哪一个才是问题的根
因?
• 传统根据决策树诊断
的根因没有可解释
性。
2
现实中的“根因诊断”
异
常
计
算
特
征
规
则
诊断API
图数据库
模型
可解释性
优先级模型初筛
特征关联边
更新
根因随机游走
优先级
模型
特征
知识图谱构建
FP-Tree
频繁项集
人工修正反馈
MaxCompute
覆盖度/置信率
专家规则
输入
更
新
• 异常推导链怎么得
出?
• 如何量化推导链的
置信度 or 支持度?
• 随着业务的发展,
如何自适应迭代?
阿里云ECS根因诊断的总体方案
置信率/提升度
校验
任务
下发
离线关联度存储
定时计算任务
静态维表
异常感知模块
其他轮询数据
异常计算
特征规则
日志聚类
实时时序数据+异常事件数据
数据
导入
离线异常特征
18. ECS智能运维决策系统--概览
a. 历史异常回放
DryRun
实时命中分析
b. 提前命中程度统计分析
c. 漏召回详情分析
面临问题
每日异常特征分布(每日千万级)
d. 新增命中资源详情分析
• 单一维度判定执行
运维风险高。
• 异常恢复手段单一,没
有结合客户通知。
• 流控维度单一不支持表
达式配置。
• 规则变更无法回溯历
史,全凭经验
规则命中
回溯对比
a. 每日命中Resource详情
b. 每日命中资源地域集群分布
c. A/B Test灰度切流比例建议
特征组合
事件触发器
A/B Test
推
送
分析引擎
特征计算
推
送
导入
维度关联
根因诊断
消
费
其他数据源
多维度流控
历史回溯
实时时序数据+事件数据
优先级模型
DryRun机制
综合决策
知识图谱
规则引擎
工作流
白屏化工作
流编排
短信/邮件/
站内信通知
执行引擎
工作流分池
工作流告警
工作流互斥
事件状态机
SLA平台
客户侧事件
客户侧
通知
磁盘
事件
PerfErro
reboot redeploy r
强制重启NC
争抢抑制
内存碎片整理
热迁移
客户侧通知
锁定物理机
磁盘在线隔离
内存压测下线
FPGA_ROOM刷写
宕机原地恢复
主动上报维修单...
19. ECS智能运维决策系统--评价体系(理论基础)
1
ECS主动运维构成的要素
有效性问题
预测的模型特征 + 运维的动作
运维的观察窗口,以及观察窗口过程中的不可用时长
• 运维动作&运维
模型是否有正向
效果?
• 如何评价并选取
最佳运维动作?
数据面
运维过程中是否有提前通知客户行为,提前时长是多久?
2
性能维度
KeyMetric计算
控制面
VM总活跃时长:
异常严重程度系数: F l (越严重的异常系数越大)
主动通知后计算的系数加权: F e (提前量越多系数越小)
评价指标
• ECS的稳定核心指
标(KeyMetric)的
应该考虑哪些因素?
• 采用何种假设检验
算法体现不同运维
的差异性?
a. 数据面不可用服从正态分布
3
b. 性能/控制面可能是多峰分布
评价--假设检验算法等
c. 样本组的方差齐性大概率不满足
d. 切流比例 Max(2 * power - 1,0)
显著性差异检验-单因素方差分析F检验(Welch's anova)
精准控制切流比例--功效分析(Cohen’s f)
20. ECS智能运维决策系统--评价体系(工程落地)
1
对照组选取(HashRing)
面临问题
2
总体工程落地的方案
评价模块
方差/功效分析
切流建议模块
MaxCompute
对外评价API
• 对照组选取的不
确定性问题?
• 对照组样本太少
怎么办?
数据加速层
KeyMetric
KeyMetric原始数据--ADB/SLS 加速查询
Spark算法
过滤器配置
特征分类配置
回写
任务
导入
离线结果表
定时计算任务
静态维表
3
面临问题
• 如何于现有的运维
体系整合?
• 如何安全高效的灰
度发布上线?
异常感知模块
运维策略A/B Test上线流程
异常计算
特征规则
日志聚类
数据
导入
离线异常特征
21.
22. 感谢
【1】Localizing Failure Root Causes in a Microservice through Causality Inference link
【2】Henry Lee. Henry Lees Crime Scene Handbook [M] .London:Academic Press, 2001
【3】Failures in Large Scale Systems: Long-term Measurement, Analysis, and Implications. In Proceedings of the
International Conference for High Performance Computing, Networking, Storage and Analysis 2017
【4】Kernel Methods in Machine Learning
【5】Openstack Ceilometer / prometheus 社区相关文档
【6】Ganter for Spring 2021 AIOps G2CR-Dynatrace-AIOps-Platforms-Spring2021.pdf
【7】Critical Capabilities for Application Performance Monitoring https://www.gartner.com/doc/reprint
【8】DynaTrace Problem Detection and Analysis https://www.dynatrace.com/support/h
【9】(达摩院时序智能团队+大数据基础工程与技术团队) Chaoli Zhang^, Zhiqiang Zhou^, Yingying Zhang^, Linxiao Yang^,
Kai He^, Qingsong Wen^, Liang Sun^ (^Equally Contributed), "NetRCA: An Effective Network Fault Cause Localization
Algorithm," in Proc. IEEE 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2022),
Singapore, May 2022.
【10】(大数据基础工程与技术团队+达摩院时序智能团队) Yingying Zhang, Zhengxiong Guan, Huajie Qian, Leili Xu,
Hengbo Liu, Qingsong Wen, Liang Sun, Junwei Jiang, Lunting Fan and Min Ke, "CloudRCA: A Root Cause Analysis
Framework for Cloud Computing Platforms," in Proc. 30th ACM International Conference on Information and
Knowledge Management (CIKM 2021), Queensland, Australia, Nov. 2021