阿里云大数据计算平台根因定位实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里云大数据计算平台
根因定位实践
张颖莹 阿里云 算法专家
2. 目录 CONTENT
01
02
背景和挑战
03
根因定位模型构建
05
多源异构数据处理
04
落地经验和总结
CloudRCA框架
3. 01
背景和挑战
4. 阿里云大数据计算平台介绍
大数据计算服务MaxCompute
•
快速、完全托管的TB/PB级数据仓库
实时计算Flink版
•
企业级、高性能实时大数据处理系统
实时数仓Hologres
•
交互式分析产品,一站式实时数据仓库引擎
5. 大数据计算平台智能运维(AIOps)
• SRE工单推荐
• 用户自助答疑
效率
• 异常发现 运维
• 告警收敛 核心问题
• 作业提速
• 系统性能
• 作业自动扩缩容
• 用户资源配置优化
• 应用排布
• 根因定位
• 自愈
稳定性
成本
6. 根因定位核心目标和难点
Mean Time To Resolve(MTTR)
稳定性SLA
service-level agreement
问题发生
难点
异常发现
(1)数据多源异构
(2)干扰现象过多
(3)样本不均衡
(4)平台间复用
(5)运行时间足够短
根因定位
问题恢复
7. 02
多源异构数据处理
8. 运维场景典型数据形态
业务视角 告警事件
数据视角 离散值
指标
时间序列
1
0
t1
t2
t3
t4
t5
t6
time
日志 实体关系
文本 拓扑
9. 时间序列异常检测
周期识别和分解
异常类型总结
RobustPeriod[1]
[1] Qingsong Wen, Kai He, Liang Sun, Yingying Zhang, Min Ke, and Huan Xu. 2021. RobustPeriod:
Robust Time-Frequency Mining for Multiple Periodicity Detection. In Proceedings of the 2021
International Conference on Management of Data (SIGMOD’21). 2328–2337.
检测算法
异常类型
均值变化
方差变化
尖峰深谷
断崖式跌落
趋势预警
成分
趋势
残差
残差
差分
趋势
统计检验方法
T-test
F-test
ESD-test
ESD-test
MK-test
10. 日志文本聚类
系统日志特点
• 海量且信息密度低
示例
• 非结构化
• 格式规范+语义性
(1) Table bigdata.merchant_info can not be found
(2) Table bigdata.shop_info can not be found
(3) Can't find table bigdata.merchant_info
• 包含变量多
• 实时生成
聚类流程
变量剔除
Log
•
在线聚类
树模型
•
深度学习
深度学习模型
FT-Tree[1] Word Embedding
Word
AFT-Tree •
基于Flink的实时处理
[1] ShenglinZhang,YingLiu,WeibinMeng,ZhilingLuo,JiahaoBu,SenYang,Peixian Liang, Dan Pei, Jun Xu,
Yuzhi Zhang, et al. 2018. Prefix: Switch failure prediction in datacenter networks. Proceedings of the ACM
on Measurement and Analysis of Computing Systems 2, 1 (2018), 1–29.
embedding
层次聚类
时间序列生成
•
结合日志类别
和维度
11. 03
根因定位模型构建
12. 问题定义和模型选择
特点 局限 下钻分析 多维度 主指标和子指标满足
特定关系 Squeeze[1]
根因分类 根因类型明确 指标间依赖关系难以
捕捉 iSQUAD[2]
因果推断
指标/节点间存在因果关系
定位到因果图中某一
指标
[1] Li Z, Luo C, Zhao Y, et al. Generic and robust localization of multi-dimensional root causes[C]//2019 IEEE 30th International
Symposium on Software Reliability Engineering (ISSRE). IEEE, 2019: 47-57.
[2] Ma M, Yin Z, Zhang S, et al. Diagnosing root causes of intermittent slow queries in cloud databases[J]. Proceedings of the
VLDB Endowment, 2020, 13(8): 1176-1189.
[3] Wang P, Xu J, Ma M, et al. Cloudranger: root cause identification for cloud native systems[C]//2018 18th IEEE/ACM
International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE, 2018: 492-502.
相关研究
CloudRanger[3]
13. 大数据平台典型根因类型示例
模块
资源调度
存储
Flink
Hologres
根因类型
YARN NM decommissioned
YARN RM switch
YARN resource preemption
…
HDFS service unavailable
HDFS usage over limit
HDFS call queue full
…
机器
网络
其他
MaxCompute
Upstream-TT
Upstream-SLS
…
Fuxi master fail
ASI server overload
Fuxi tobo fail
ASI node fail
Fuxi apiserver overload
ASI apiserver overload
…
…
pangu server unavailable
pangu master failover
pangu master queue size full
pangu server write slow
pangu chunkserver failover
…
oom
io hang
disk failure
cpu usage over limit
machine breakdown
…
martnet exception
qos exception
lvs exception
…
Tunnel
POP
Frontend
DNS
…
…
14. 基于知识的层次贝叶斯网络(KHBN)
Knowledge-informed Hierarchical Bayesian Network
KHBN
事件
指标
日志
值为0/1
的
(1)因果关系图构建:
PC Algorithm[1]
指标层
时间序列
(2)根因推断:
条件概率
type ∗ ! = argmax # ! P t ! |m $ , s % , s & , … , s ' P m $ |s % , s & , … , s '
实体关系
根因层
模块1
模块2
模块3
SRE自定义根因类型
…
类型1
类型2
[1] Spirtes P, Glymour C N, Scheines R, et al. Causation, prediction, and search[M]. MIT press, 2000.
类型3
…
15. 训练样本和模型评价
样本不均衡 故障演练
评价指标 ∑ 1 0 precision_of_each_type 0
precision =
n
cover_rate =
f1_score =
covered_types
all_types
2 ∗ precision ∗ cover_rate
precision + cover_rate
每种根因类型的平均准确率
覆盖的故障类型占比
16. 04
CloudRCA框架
17. CloudRCA根因定位框架
事件中心
事件
日志存储系统
PMDB
指标
CMDB
日志
实体关系
日志聚类
周期识别和
分解
异常检测
预处理 模板提取
(AFT-tree)
向量化
(Word2Vec) 实时聚类
(Hierarchical
Clustering)
特征数据(标准化0/1时间序列)
故障演练
带标注样本数据
基于知识的层次贝叶斯网络(KHBN)
根因推断
[1] Zhang Y, Guan Z, Qian H, et al. CloudRCA: A Root Cause Analysis Framework for Cloud Computing
Platforms[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management.
2021: 4373-4382.
18. CloudRCA背后的数据链路和中台
指标运营
稳定性SLA指标
业务场景
根因准确率
根因覆盖率
……
……
MaxCompute/Flink/Hologres系统异常根因定位
算法服务 异常检测 日志聚类 因果分析 ……
计算服务 MaxCompute Flink Hologres ……
运维中台 流程平台 通知服务 作业平台 ……
数据服务
运维数仓
性能指标库PMDB
事件中心
日志中心SLS
配置管理库CMDB
19. 05
落地经验和总结
20. 落地经验
• 特征工程的重要性 消融分析
• 专家经验的作用 对于样本不足的新平台尤为关键
• 如何处理新出现的异常类型 定位到模块粒度
• 如何在不同云平台间高效复用 迁移学习
各平台异常MTTR减少20%
21. 总结与未来规划
总结
规划
• 数据多源异构 异常检测+日志聚类 • 可解释性
• 干扰现象过多 因果推断 • 样本积累
• 样本不均衡 故障演练
• 平台间复用 迁移学习
• 运行时间足够短
大规模实时处理框架
联系方式:congrongzyy@163.com
• 因果推断+知识图谱
节点路径
GAN + Active Learning
22. 非常感谢您的观看