阿里云大数据计算平台基于 AIOps 的根因定位实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里云大数据计算平台
基于AIOps的根因定位实践
阿里云算法专家/ 张颖莹
2.
3. 演讲大纲
01 阿里云大数据运维背景 02 大数据运维中的根因定位
03 阿里云根因定位实践 04 根因定位背后的算法和工程链路
05
总结和展望
4. 01
阿里云大数据运维背景
5. 阿里灵杰
6. 阿里云大数据计算平台
典型业务场景
大数据计算平台
大数据计算服务
MaxCompute
实时计算
Flink版
阿里云ABM 运维中台
实时数仓
Hologres
……
7. 智能运维AIOps
大规模
实时性
核心业务
架构复杂
效率
AIOps
稳定性
成本
海量多源
异构数据
8. 02
大数据运维中的根因定位
9. 根因定位业务价值
Mean Time To Resolve(MTTR)
问题发生
异常发现
根因定位
问题恢复
缩短MTTR,保障SLA(Service Level Agreement)
10. 根因定位问题定义
当我们在谈论根因定位时,我们究竟在谈论什么?
维度下钻 根因分类 因果推断
定位结果 根因维度 根因类别 根因节点/路径
核心挑战 庞大搜索空间 特征构建 因果图构建和推断
11. 根因定位的普遍性难点
数据来源和类型复杂
标注样本数量少
指标间存在复杂的关联关系
全新的根因类型或表现形式
性能和实时性要求高
专家经验与模型能力的结合
12. 03
阿里云根因定位实践
13. 案例1:多维数据下钻分析
服务整体流量指标
地域
集群
机房
Q:哪些维度导致了服务整体流量下跌?
具体是哪几个用户/机房?
用户
应用
应用
14. 案例1:DrillUp下钻分析框架
难点
如何量化一个维度
是根因的可能性
面对庞大的搜索空间
如何提升性能
解决方案
显著度(自身变化)
惊喜度(子节点分布)
贡献度(总体占比)
自动选择最优的搜索方向
快速剪枝
高效的数据结构(BitMap)
15. 案例2:计算平台故障根因类型定位
模块
资源调度
存储
Flink
YARN NM decommissioned
YARN RM switch
YARN resource preemption
…
HDFS service unavailable
HDFS usage over limit
HDFS call queue full
…
机器
网络
其他
Upstream-TT
Upstream-SLS
…
MaxCompute
Hologres
根因类型
Fuxi master fail
ASI server overload
Fuxi tobo fail
ASI node fail
Fuxi apiserver overload
ASI apiserver overload
…
…
pangu server unavailable
pangu master failover
pangu master queue size full
pangu server write slow
pangu chunkserver failover
…
oom
io hang
disk failure
cpu usage over limit
machine breakdown
…
martnet exception
qos exception
lvs exception
…
Tunnel
POP
Frontend
DNS
…
…
Q:故障发生时
是平台哪个模块导致的?
具体是哪种类型的原因?
16. 案例2:计算平台故障根因类型定位
特征构建
指标
异常检测
事件
日志
拓扑
实时在线聚类
日志聚类
log
指标构建
•NLP •日志类别
•层次聚类 •维度
17. 案例2:计算平台故障根因类型定位
样本积累
Flink
MaxCom
pute
Hologres
故障演练
数据增强
18. 案例2:计算平台故障根因类型定位
定位模型
事件
基于知识的层次贝叶斯网络(KHBN)
• 指标层因果关系构建
值为0/1
指标 的
日志 时间序列
指标层
PC Algorithm
实体关系拓扑
根因层
专家定义的根因类型
模块1
模块2
模块3
… 类型1 类型2 类型3
…
• 根因分类
条件概率
type ∗ i = argmax t i P t i |m k , s 1 , s 2 , …, s j P m k |s 1 , s 2 , …, s j
19. 案例2:CloudRCA根因定位框架
事件中心
事件
PMDB
日志存储系统
CMDB
日志
指标
实体关系
日志聚类
周期识别和
分解
异常检测
预处理 模板提取
(AFT-tree)
向量化
(Word2Vec) 实时聚类
(Hierarchical
Clustering)
优势
•整合多源异构数据
•融合了专家知识和数据智能的
层次贝叶斯网络
特征数据(标准化0/1时间序列)
故障演练
带标注样本数据
基于知识的层次贝叶斯网络(KHBN)
根因推断
[1] Zhang Y, Guan Z, Qian H, et al. CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms[C]//Proceedings of the 30th ACM
International Conference on Information & Knowledge Management. 2021: 4373-4382.
•可应对全新的故障类型
•可迁移的通用学习框架
20. 案例3:网络故障根因类型定位
ICASSP’22 AIOps Challenge网络智能运维大赛
Q:根因是哪种类型或
哪几种类型的组合?
21. 案例3:网络故障根因类型定位
特征构建
时序特征
tsfresh
方位特征 缺失特征 特征依赖
方向+距离 利用归因模型
进行拓展 拓展出
交叉特征
22. 案例3:网络故障根因类型定位
数据增强
未打标数据标签拓展
多维时间序列相似度计算
Eros (Extended Frobenius norm)
标签拓展
已打标数据标签补充
时间戳对齐
23. 案例3:网络故障根因类型定位
定位模型
分类模型 XGBoost
规则生成模型 基于树模型的规则生成
Skope-rules
归因模型 特征重要性计算
Shapley value
因果图模型 PageRank
随机游走
融合模型
24. 案例3:NetRCA根因定位框架
原始数据
优势
时序特征
方位特征
补全特征
交叉特征 样本相似度计算
样本标签补全
特征工程 数据增强
派生数据
分类模型
规则生成模型
归因模型
图模型
集成模型
•充分挖掘的时序特征和特征间的关联关系
•充分利用了未打标的数据
•集成模型兼顾了准确性和可解释性
[2] Zhang C, Zhou Z, Zhang Y, et al. Netrca: an effective network fault cause localization algorithm[C]//ICASSP 2022-2022 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9316-9320.
根因推断结果
25. 04
根因定位背后的算法和工程链路
26. 根因定位算法工具箱
27. AIOps背后的数据和工程链路
指标运营
AIOps平台
稳定性SLA指标
平均故障发现时间
平均故障处理时间
……
MaxCompute/Flink/Hologres系统异常根因定位 ……
运维中台 流程平台 通知服务 作业平台 ……
计算服务 MaxCompute Flink 机器学习平台PAI ……
算法服务 异常检测 日志聚类 因果推断 ……
数据存储 性能指标库PMDB 事件中心 日志中心SLS 配置管理库CMDB
数据采集 指标 告警/操作事件 日志 实体拓扑关系
28. 05
总结与展望
29. 总结
效率
Mean Time To Resolve(MTTR)
维度下钻 DrillUp
根因分类 CloudRCA
因果推断 NetRCA
AIOps
问题发生
稳定性
异常发现 根因定位 问题恢复
成本
数据来源和类型复杂
时序分析
标注样本数量少
日志分析
故障演练
指标间复杂的关联关系
归因模型
拓展特征
性能和实时性要求高
剪枝
Flink
数据增强
全新的根因类型或表现形式
因果分析
因果推断
专家经验与模型能力的结合
因果图构建
30. 思考和展望
数据来源 特征工程 样本积累 模型构建
云原生可观测性
Metric/log/trace 算法工具箱
链路实时性 混沌工程
数据增强 推断能力
可解释性
https://github.com/alibaba/SREWorks
SREWorks
云原生数智运维平台
部分算法服务在未来将陆续通过SREWorks输出,欢迎关注!
31.