阿里云大数据计算平台根因定位实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云大数据计算平台 根因定位实践 张颖莹 阿里云 算法专家
2. 目录 CONTENT 01 02 背景和挑战 03 根因定位模型构建 05 多源异构数据处理 04 落地经验和总结 CloudRCA框架
3. 01 背景和挑战
4. 阿里云大数据计算平台介绍 大数据计算服务MaxCompute • 快速、完全托管的TB/PB级数据仓库 实时计算Flink版 • 企业级、高性能实时大数据处理系统 实时数仓Hologres • 交互式分析产品,一站式实时数据仓库引擎
5. 大数据计算平台智能运维(AIOps) • SRE工单推荐 • 用户自助答疑 效率 • 异常发现 运维 • 告警收敛 核心问题 • 作业提速 • 系统性能 • 作业自动扩缩容 • 用户资源配置优化 • 应用排布 • 根因定位 • 自愈 稳定性 成本
6. 根因定位核心目标和难点 Mean Time To Resolve(MTTR) 稳定性SLA service-level agreement 问题发生 难点 异常发现 (1)数据多源异构 (2)干扰现象过多 (3)样本不均衡 (4)平台间复用 (5)运行时间足够短 根因定位 问题恢复
7. 02 多源异构数据处理
8. 运维场景典型数据形态 业务视角 告警事件 数据视角 离散值 指标 时间序列 1 0 t1 t2 t3 t4 t5 t6 time 日志 实体关系 文本 拓扑
9. 时间序列异常检测 周期识别和分解 异常类型总结 RobustPeriod[1] [1] Qingsong Wen, Kai He, Liang Sun, Yingying Zhang, Min Ke, and Huan Xu. 2021. RobustPeriod: Robust Time-Frequency Mining for Multiple Periodicity Detection. In Proceedings of the 2021 International Conference on Management of Data (SIGMOD’21). 2328–2337. 检测算法 异常类型 均值变化 方差变化 尖峰深谷 断崖式跌落 趋势预警 成分 趋势 残差 残差 差分 趋势 统计检验方法 T-test F-test ESD-test ESD-test MK-test
10. 日志文本聚类 系统日志特点 • 海量且信息密度低 示例 • 非结构化 • 格式规范+语义性 (1) Table bigdata.merchant_info can not be found (2) Table bigdata.shop_info can not be found (3) Can't find table bigdata.merchant_info • 包含变量多 • 实时生成 聚类流程 变量剔除 Log • 在线聚类 树模型 • 深度学习 深度学习模型 FT-Tree[1] Word Embedding Word AFT-Tree • 基于Flink的实时处理 [1] ShenglinZhang,YingLiu,WeibinMeng,ZhilingLuo,JiahaoBu,SenYang,Peixian Liang, Dan Pei, Jun Xu, Yuzhi Zhang, et al. 2018. Prefix: Switch failure prediction in datacenter networks. Proceedings of the ACM on Measurement and Analysis of Computing Systems 2, 1 (2018), 1–29. embedding 层次聚类 时间序列生成 • 结合日志类别 和维度
11. 03 根因定位模型构建
12. 问题定义和模型选择 特点 局限 下钻分析 多维度 主指标和子指标满足 特定关系 Squeeze[1] 根因分类 根因类型明确 指标间依赖关系难以 捕捉 iSQUAD[2] 因果推断 指标/节点间存在因果关系 定位到因果图中某一 指标 [1] Li Z, Luo C, Zhao Y, et al. Generic and robust localization of multi-dimensional root causes[C]//2019 IEEE 30th International Symposium on Software Reliability Engineering (ISSRE). IEEE, 2019: 47-57. [2] Ma M, Yin Z, Zhang S, et al. Diagnosing root causes of intermittent slow queries in cloud databases[J]. Proceedings of the VLDB Endowment, 2020, 13(8): 1176-1189. [3] Wang P, Xu J, Ma M, et al. Cloudranger: root cause identification for cloud native systems[C]//2018 18th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). IEEE, 2018: 492-502. 相关研究 CloudRanger[3]
13. 大数据平台典型根因类型示例 模块 资源调度 存储 Flink Hologres 根因类型 YARN NM decommissioned YARN RM switch YARN resource preemption … HDFS service unavailable HDFS usage over limit HDFS call queue full … 机器 网络 其他 MaxCompute Upstream-TT Upstream-SLS … Fuxi master fail ASI server overload Fuxi tobo fail ASI node fail Fuxi apiserver overload ASI apiserver overload … … pangu server unavailable pangu master failover pangu master queue size full pangu server write slow pangu chunkserver failover … oom io hang disk failure cpu usage over limit machine breakdown … martnet exception qos exception lvs exception … Tunnel POP Frontend DNS … …
14. 基于知识的层次贝叶斯网络(KHBN) Knowledge-informed Hierarchical Bayesian Network KHBN 事件 指标 日志 值为0/1 的 (1)因果关系图构建: PC Algorithm[1] 指标层 时间序列 (2)根因推断: 条件概率 type ∗ ! = argmax # ! P t ! |m $ , s % , s & , … , s ' P m $ |s % , s & , … , s ' 实体关系 根因层 模块1 模块2 模块3 SRE自定义根因类型 … 类型1 类型2 [1] Spirtes P, Glymour C N, Scheines R, et al. Causation, prediction, and search[M]. MIT press, 2000. 类型3 …
15. 训练样本和模型评价 样本不均衡 故障演练 评价指标 ∑ 1 0 precision_of_each_type 0 precision = n cover_rate = f1_score = covered_types all_types 2 ∗ precision ∗ cover_rate precision + cover_rate 每种根因类型的平均准确率 覆盖的故障类型占比
16. 04 CloudRCA框架
17. CloudRCA根因定位框架 事件中心 事件 日志存储系统 PMDB 指标 CMDB 日志 实体关系 日志聚类 周期识别和 分解 异常检测 预处理 模板提取 (AFT-tree) 向量化 (Word2Vec) 实时聚类 (Hierarchical Clustering) 特征数据(标准化0/1时间序列) 故障演练 带标注样本数据 基于知识的层次贝叶斯网络(KHBN) 根因推断 [1] Zhang Y, Guan Z, Qian H, et al. CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4373-4382.
18. CloudRCA背后的数据链路和中台 指标运营 稳定性SLA指标 业务场景 根因准确率 根因覆盖率 …… …… MaxCompute/Flink/Hologres系统异常根因定位 算法服务 异常检测 日志聚类 因果分析 …… 计算服务 MaxCompute Flink Hologres …… 运维中台 流程平台 通知服务 作业平台 …… 数据服务 运维数仓 性能指标库PMDB 事件中心 日志中心SLS 配置管理库CMDB
19. 05 落地经验和总结
20. 落地经验 • 特征工程的重要性 消融分析 • 专家经验的作用 对于样本不足的新平台尤为关键 • 如何处理新出现的异常类型 定位到模块粒度 • 如何在不同云平台间高效复用 迁移学习 各平台异常MTTR减少20%
21. 总结与未来规划 总结 规划 • 数据多源异构 异常检测+日志聚类 • 可解释性 • 干扰现象过多 因果推断 • 样本积累 • 样本不均衡 故障演练 • 平台间复用 迁移学习 • 运行时间足够短 大规模实时处理框架 联系方式:congrongzyy@163.com • 因果推断+知识图谱 节点路径 GAN + Active Learning
22. 非常感谢您的观看

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-12 22:57
浙ICP备14020137号-1 $mapa de visitantes$