阿里云弹性计算智能化监控诊断的探索和实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云弹性计算智能化监控诊断 探索和实践 张尤 阿里巴巴高级技术专家
2.
3. 关于我 神龙计算平台-异常调度-监控&诊断 核心研发+诊断平台负责人 ECS数据&稳定性团队-性能基线 核心研发 ECS管控&工程效率 核心研发 • 2015.02 • 2016.10 • 2017.10 • 现在
4. 大纲 • 01 • 概述&背景 • • 业务难点&客户诉求 ECS监控诊断发展历程 • 02 • 业界方案 • • • 03 • 我们的方案 云原生方案 • 可靠的数据采集方案 其他商业软件方案 • 根因可解释性如何解决 • 智能运维决策 • DryRun系统&评价体系
5. • 01 概述&背景
6. 类比医疗诊断技术 客户对诊断能力诉求 远程AI诊断/早期诊断 可预测 异常特征的训练和学习/不断迭代 可控制 可感知 基本稳定可靠 完善的治疗方案 客户自愈方案自动推荐 全链路根因诊断异常感知 指标量化的复杂体检 简单直接的可用性判定 简单直接的诊断手段
7. 业务难点 基础设施规模庞大 3000+ 200+ 网络和CDN节点 可用区(AZ) 4 大洲 ~ 100,000,000+ 部件 (CPUs, disks etc.) ~ 1,000,000+ 设备 25+ 数据中心区域(Region) ~ 5000+ 集群
8. 业务难点 业务领域覆盖众多 覆盖业务领域广 X86计算 C6 计算型 G6 通用型 C5 计算型 G5 通用型 SN2NE 通用网 络增强 SN1NE 计算网 络增强 R6 内存型 I2 本地SSD HFC6 高主频 计算型 R5 内存型 裸金属&高性能计算 异构计算 RE4 内存形 HFG6 高主频 通用型 SE1NE 内存网 络增强 HFR6 高主频 内存型 D1NE 大数据型 D2 大数据型 I1 本地SSD D1 大数据型 GN6v GPU计算型 F3 FPGA 计算型 EBM 弹性裸金属 GN6i GPU计算型 通用计算业务 高性能高主频业务 SCC 超级计算集群 GN5 GPU计算型 本地盘存储大数据业务 E-HPC 弹性高性能计算 F1 FPGA 计算型 GA1 GPU可视化型 异构GPU业务 Web服务器;批量计算,分布 式分析,高性能科学和工程类 应用和平台;广告,游戏 高性能科学计算 高性能前端机 高性能数据库 数据挖掘和分析 Redis,Memcached 内存型数据库 中小型数据库 数据处理任务 企业后台应用 MapReduce分布式计算如 Hadoop、Spark等;分布式文 件系统;日志和数据处理 关系型数据库;NoSQL 数仓;内存型数据库 Hadoop/Spark集群(实时) 基因组学研究;视频编解码、图 像转码;金融分析 深度学习;视频处理;图 形可视化;科学计算 异构FPGA业务 高性能数据库;高性能网站前端机; 数据处理任务;企业后台应用;高性 能计算、科学计算 SCC超算业务 RDMA高性能网络 售卖 形态多 预付实例 按量实例 预留实例 竞价实例 停机不收 费实例 DDH 实例 智能机柜 实例 混合云一 体机
9. 业务难点 领域知识覆盖广且技术难度深 覆盖子系统众多 技术难度深 core • turbo P02 • AVX P1 Freq • AVX P0n Freq 链路长 CPU子系统监控举例 cache • LLC访问一致性 • LLC容量 • LLC容量QOS IMC • IMC freq • IMC channel • memory buffer
10. ECS监控诊断运维发展历程 工具+人工时代 平台+半自动编排 数据化智能化 ECS正式售卖 IDC硬件监 控上线 飞天底座 监控上线 组件监控接入 Alimonitor 2010 ECS全链路诊 断平台上线 交付效能 提升10倍 接入落日弓 发布编排 2013 底层应用接入 天基&监控接 攻克底座 入XFlush 环境问题 2016 监控采集 Agent重构 Cloudops 运维平台发布 2017 智能运维 决策大脑上线 云上客户 系统事件发布 内存故障 预测上线 攻克根因 可解释性问题 监控覆盖度 99.995% 2018 策略评价 体系建设 99.9%异常自 动闭环 2019 2020-至今
11. 小结1 三个挑战 诊断结果的 规模效应下ECS 评价体系建设 监控诊断应用 架构如何设计 准确率和覆盖率如何达 成有机统一
12. • 02 业界方案
13. 业界方案及发展 AlertManger Zabbix WebUI Prometheus MySQL ZabbixServer Grafana Metric TSDB Log ZabbixClient ZabbixClient Zabbix Client BorgMon 细节公开 Cacti发布 (snmp) Zabbix 备受追捧 ES1.0发布 2010 • Tracing 2012 DynaTrace AIOps ZipKin/Jaeger 等APM软件发布 Prometheus 加入CNCF 2016 拓扑 数据化/AIOps/可观测 新监控标准+APM产品百家齐放 Nagios发布 • • ZabbixClient ZabbixClient App Exporter 传统监控时代 • • Pull 推送 拓扑自动分析 OneAgent通用采集 动态阈值告警 影响面自动分析 APITrace分析 故障根因分析 • Moogsoft Saas AliYun ARMS ES APM OpenTracing 发布 OpenCensus 2017 2018 Azure Metric- Advisor 发布 AliyunSLS AI分析能力 发布 2019 CNCF发布 可观测技术 雷达 2020-至今
14. • 03 我们的方案
15. ECS监控诊断架构设计-采集端设计 1 服 务 消 费 2 采集的数据回流&消费 数据 报表 监控 诊断 SLA 平台 故障 快恢 ODPS(弹内) • 调度器轻量化改造 采集之间数据共享 ODPS(弹外) 半小时投递一次 架构改造 Blink同步 SLS (弹内) • SLS (德国) SLS (迪拜) SLS (……) • • 代码Review性能评审 Gamma环境性能评估 • • 异常分析 采集准入 controller/ecs_alarm_agent(Cgroup) • 节 点 采 集 采集 大盘 • 2小时同步 回 流 存 储 其他 系统 数据采集的异常治理闭环 EcsAlarmAgent(Daemon) 配置管理 监控管理 监控打散 监控调度 监控观测 结果存储 ClusterInfo NcInfo VmInfo 日常巡检 • • 天基Tianji底座 异常占用实时告警 日常报表持续治理 内存泄露分析系统化 火焰图找瓶颈点
16. ECS监控诊断架构设计-服务端设计 异常感知中心 全链路诊断中心 图数据库(弱依赖) TDDL(分库分表) ScheduleX (分布式定时任务) Diamond(动态配管) MySQL Region3 Region3 • ODPS • 定时 导入 m as te m r as te r 特征 • Region2 • Region1 优级模型 随机游走 节点选取 路径计算 m as te m r as te r master 事件 中心 命中 推送 规则引擎 (主) 运维规则 知识图谱 构建 服务 降级 数据 降级 图数据库 GDB Region1 配置管理 定时任 务调度 数据自 动补偿 SLS & MNS & ODPS 任务均衡 任务 meta 诊断策略 trigger 特征导入 规则策略 tigger 事件消费 准实时数据校验 Region2 master 故障切换 诊断模型 历史特征 关联度分析 Redis 特征导入 worker 特征抽取Task 拓扑关联 异常检测Task 消费 规则引擎(备) 中间件降级 T+1数据校验 ScheduleX降级 规则命中实时对比 Dimaond降级 拓扑维度关联服务 实时数据 降级 准实时数据 降级 T+1离线数据 (可降级)
17. ECS异常根因诊断的解决方案 1 准确性 • 故障时刻异常太多, 哪一个才是问题的根 因? • 传统根据决策树诊断 的根因没有可解释 性。 2 现实中的“根因诊断” 异 常 计 算 特 征 规 则 诊断API 图数据库 模型 可解释性 优先级模型初筛 特征关联边 更新 根因随机游走 优先级 模型 特征 知识图谱构建 FP-Tree 频繁项集 人工修正反馈 MaxCompute 覆盖度/置信率 专家规则 输入 更 新 • 异常推导链怎么得 出? • 如何量化推导链的 置信度 or 支持度? • 随着业务的发展, 如何自适应迭代? 阿里云ECS根因诊断的总体方案 置信率/提升度 校验 任务 下发 离线关联度存储 定时计算任务 静态维表 异常感知模块 其他轮询数据 异常计算 特征规则 日志聚类 实时时序数据+异常事件数据 数据 导入 离线异常特征
18. ECS智能运维决策系统--概览 a. 历史异常回放 DryRun 实时命中分析 b. 提前命中程度统计分析 c. 漏召回详情分析 面临问题 每日异常特征分布(每日千万级) d. 新增命中资源详情分析 • 单一维度判定执行 运维风险高。 • 异常恢复手段单一,没 有结合客户通知。 • 流控维度单一不支持表 达式配置。 • 规则变更无法回溯历 史,全凭经验 规则命中 回溯对比 a. 每日命中Resource详情 b. 每日命中资源地域集群分布 c. A/B Test灰度切流比例建议 特征组合 事件触发器 A/B Test 推 送 分析引擎 特征计算 推 送 导入 维度关联 根因诊断 消 费 其他数据源 多维度流控 历史回溯 实时时序数据+事件数据 优先级模型 DryRun机制 综合决策 知识图谱 规则引擎 工作流 白屏化工作 流编排 短信/邮件/ 站内信通知 执行引擎    工作流分池 工作流告警 工作流互斥    事件状态机 SLA平台 客户侧事件   客户侧 通知 磁盘 事件 PerfErro reboot redeploy r    强制重启NC 争抢抑制 内存碎片整理 热迁移 客户侧通知 锁定物理机 磁盘在线隔离 内存压测下线 FPGA_ROOM刷写 宕机原地恢复 主动上报维修单...
19. ECS智能运维决策系统--评价体系(理论基础) 1 ECS主动运维构成的要素 有效性问题 预测的模型特征 + 运维的动作 运维的观察窗口,以及观察窗口过程中的不可用时长 • 运维动作&运维 模型是否有正向 效果? • 如何评价并选取 最佳运维动作? 数据面 运维过程中是否有提前通知客户行为,提前时长是多久? 2 性能维度 KeyMetric计算 控制面 VM总活跃时长: 异常严重程度系数: F l (越严重的异常系数越大) 主动通知后计算的系数加权: F e (提前量越多系数越小) 评价指标 • ECS的稳定核心指 标(KeyMetric)的 应该考虑哪些因素? • 采用何种假设检验 算法体现不同运维 的差异性? a. 数据面不可用服从正态分布 3 b. 性能/控制面可能是多峰分布 评价--假设检验算法等 c. 样本组的方差齐性大概率不满足 d. 切流比例 Max(2 * power - 1,0) 显著性差异检验-单因素方差分析F检验(Welch's anova) 精准控制切流比例--功效分析(Cohen’s f)
20. ECS智能运维决策系统--评价体系(工程落地) 1 对照组选取(HashRing) 面临问题 2 总体工程落地的方案 评价模块 方差/功效分析 切流建议模块 MaxCompute 对外评价API • 对照组选取的不 确定性问题? • 对照组样本太少 怎么办? 数据加速层 KeyMetric KeyMetric原始数据--ADB/SLS 加速查询 Spark算法 过滤器配置 特征分类配置 回写 任务 导入 离线结果表 定时计算任务 静态维表 3 面临问题 • 如何于现有的运维 体系整合? • 如何安全高效的灰 度发布上线? 异常感知模块 运维策略A/B Test上线流程 异常计算 特征规则 日志聚类 数据 导入 离线异常特征
21.
22. 感谢 【1】Localizing Failure Root Causes in a Microservice through Causality Inference link 【2】Henry Lee. Henry Lees Crime Scene Handbook [M] .London:Academic Press, 2001 【3】Failures in Large Scale Systems: Long-term Measurement, Analysis, and Implications. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis 2017 【4】Kernel Methods in Machine Learning 【5】Openstack Ceilometer / prometheus 社区相关文档 【6】Ganter for Spring 2021 AIOps G2CR-Dynatrace-AIOps-Platforms-Spring2021.pdf 【7】Critical Capabilities for Application Performance Monitoring https://www.gartner.com/doc/reprint 【8】DynaTrace Problem Detection and Analysis https://www.dynatrace.com/support/h 【9】(达摩院时序智能团队+大数据基础工程与技术团队) Chaoli Zhang^, Zhiqiang Zhou^, Yingying Zhang^, Linxiao Yang^, Kai He^, Qingsong Wen^, Liang Sun^ (^Equally Contributed), "NetRCA: An Effective Network Fault Cause Localization Algorithm," in Proc. IEEE 47th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2022), Singapore, May 2022. 【10】(大数据基础工程与技术团队+达摩院时序智能团队) Yingying Zhang, Zhengxiong Guan, Huajie Qian, Leili Xu, Hengbo Liu, Qingsong Wen, Liang Sun, Junwei Jiang, Lunting Fan and Min Ke, "CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms," in Proc. 30th ACM International Conference on Information and Knowledge Management (CIKM 2021), Queensland, Australia, Nov. 2021

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 15:24
浙ICP备14020137号-1 $Map of visitor$