阿里云大数据计算平台基于 AIOps 的根因定位实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云大数据计算平台 基于AIOps的根因定位实践 阿里云算法专家/ 张颖莹
2.
3. 演讲大纲 01 阿里云大数据运维背景 02 大数据运维中的根因定位 03 阿里云根因定位实践 04 根因定位背后的算法和工程链路 05 总结和展望
4. 01 阿里云大数据运维背景
5. 阿里灵杰
6. 阿里云大数据计算平台 典型业务场景 大数据计算平台 大数据计算服务 MaxCompute 实时计算 Flink版 阿里云ABM 运维中台 实时数仓 Hologres ……
7. 智能运维AIOps 大规模 实时性 核心业务 架构复杂 效率 AIOps 稳定性 成本 海量多源 异构数据
8. 02 大数据运维中的根因定位
9. 根因定位业务价值 Mean Time To Resolve(MTTR) 问题发生 异常发现 根因定位 问题恢复 缩短MTTR,保障SLA(Service Level Agreement)
10. 根因定位问题定义 当我们在谈论根因定位时,我们究竟在谈论什么? 维度下钻 根因分类 因果推断 定位结果 根因维度 根因类别 根因节点/路径 核心挑战 庞大搜索空间 特征构建 因果图构建和推断
11. 根因定位的普遍性难点 数据来源和类型复杂 标注样本数量少 指标间存在复杂的关联关系 全新的根因类型或表现形式 性能和实时性要求高 专家经验与模型能力的结合
12. 03 阿里云根因定位实践
13. 案例1:多维数据下钻分析 服务整体流量指标 地域 集群 机房 Q:哪些维度导致了服务整体流量下跌? 具体是哪几个用户/机房? 用户 应用 应用
14. 案例1:DrillUp下钻分析框架 难点 如何量化一个维度 是根因的可能性 面对庞大的搜索空间 如何提升性能 解决方案       显著度(自身变化) 惊喜度(子节点分布) 贡献度(总体占比) 自动选择最优的搜索方向 快速剪枝 高效的数据结构(BitMap)
15. 案例2:计算平台故障根因类型定位 模块 资源调度 存储 Flink YARN NM decommissioned YARN RM switch YARN resource preemption … HDFS service unavailable HDFS usage over limit HDFS call queue full … 机器 网络 其他 Upstream-TT Upstream-SLS … MaxCompute Hologres 根因类型 Fuxi master fail ASI server overload Fuxi tobo fail ASI node fail Fuxi apiserver overload ASI apiserver overload … … pangu server unavailable pangu master failover pangu master queue size full pangu server write slow pangu chunkserver failover … oom io hang disk failure cpu usage over limit machine breakdown … martnet exception qos exception lvs exception … Tunnel POP Frontend DNS … … Q:故障发生时 是平台哪个模块导致的? 具体是哪种类型的原因?
16. 案例2:计算平台故障根因类型定位 特征构建 指标 异常检测 事件 日志 拓扑 实时在线聚类 日志聚类 log 指标构建 •NLP •日志类别 •层次聚类 •维度
17. 案例2:计算平台故障根因类型定位 样本积累 Flink MaxCom pute Hologres 故障演练 数据增强
18. 案例2:计算平台故障根因类型定位 定位模型 事件 基于知识的层次贝叶斯网络(KHBN) • 指标层因果关系构建 值为0/1 指标 的 日志 时间序列 指标层 PC Algorithm 实体关系拓扑 根因层 专家定义的根因类型 模块1 模块2 模块3 … 类型1 类型2 类型3 … • 根因分类 条件概率 type ∗ i = argmax t i P t i |m k , s 1 , s 2 , …, s j P m k |s 1 , s 2 , …, s j
19. 案例2:CloudRCA根因定位框架 事件中心 事件 PMDB 日志存储系统 CMDB 日志 指标 实体关系 日志聚类 周期识别和 分解 异常检测 预处理 模板提取 (AFT-tree) 向量化 (Word2Vec) 实时聚类 (Hierarchical Clustering) 优势 •整合多源异构数据 •融合了专家知识和数据智能的 层次贝叶斯网络 特征数据(标准化0/1时间序列) 故障演练 带标注样本数据 基于知识的层次贝叶斯网络(KHBN) 根因推断 [1] Zhang Y, Guan Z, Qian H, et al. CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms[C]//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021: 4373-4382. •可应对全新的故障类型 •可迁移的通用学习框架
20. 案例3:网络故障根因类型定位 ICASSP’22 AIOps Challenge网络智能运维大赛 Q:根因是哪种类型或 哪几种类型的组合?
21. 案例3:网络故障根因类型定位 特征构建 时序特征 tsfresh 方位特征 缺失特征 特征依赖 方向+距离 利用归因模型 进行拓展 拓展出 交叉特征
22. 案例3:网络故障根因类型定位 数据增强 未打标数据标签拓展 多维时间序列相似度计算 Eros (Extended Frobenius norm) 标签拓展 已打标数据标签补充 时间戳对齐
23. 案例3:网络故障根因类型定位 定位模型 分类模型 XGBoost 规则生成模型 基于树模型的规则生成 Skope-rules 归因模型 特征重要性计算 Shapley value 因果图模型 PageRank 随机游走 融合模型
24. 案例3:NetRCA根因定位框架 原始数据 优势 时序特征 方位特征 补全特征 交叉特征 样本相似度计算 样本标签补全 特征工程 数据增强 派生数据 分类模型 规则生成模型 归因模型 图模型 集成模型 •充分挖掘的时序特征和特征间的关联关系 •充分利用了未打标的数据 •集成模型兼顾了准确性和可解释性 [2] Zhang C, Zhou Z, Zhang Y, et al. Netrca: an effective network fault cause localization algorithm[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 9316-9320. 根因推断结果
25. 04 根因定位背后的算法和工程链路
26. 根因定位算法工具箱
27. AIOps背后的数据和工程链路 指标运营 AIOps平台 稳定性SLA指标 平均故障发现时间 平均故障处理时间 …… MaxCompute/Flink/Hologres系统异常根因定位 …… 运维中台 流程平台 通知服务 作业平台 …… 计算服务 MaxCompute Flink 机器学习平台PAI …… 算法服务 异常检测 日志聚类 因果推断 …… 数据存储 性能指标库PMDB 事件中心 日志中心SLS 配置管理库CMDB 数据采集 指标 告警/操作事件 日志 实体拓扑关系
28. 05 总结与展望
29. 总结 效率 Mean Time To Resolve(MTTR) 维度下钻 DrillUp 根因分类 CloudRCA 因果推断 NetRCA AIOps 问题发生 稳定性 异常发现 根因定位 问题恢复 成本 数据来源和类型复杂 时序分析 标注样本数量少 日志分析 故障演练 指标间复杂的关联关系 归因模型 拓展特征 性能和实时性要求高 剪枝 Flink 数据增强 全新的根因类型或表现形式 因果分析 因果推断 专家经验与模型能力的结合 因果图构建
30. 思考和展望 数据来源 特征工程 样本积累 模型构建 云原生可观测性 Metric/log/trace 算法工具箱 链路实时性 混沌工程 数据增强 推断能力 可解释性 https://github.com/alibaba/SREWorks SREWorks 云原生数智运维平台 部分算法服务在未来将陆续通过SREWorks输出,欢迎关注!
31.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.129.0. UTC+08:00, 2024-06-29 19:04
浙ICP备14020137号-1 $Map of visitor$