超大规模弹性计算节点自动化运维稳定性实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 超大规模弹性计算节点自动化运维稳定性实践唐磊（小唐）阿里云技术专家

3. 个人简介姓名：唐磊，花名：小唐，网名：石头 • • • • 2008 ~ 2015：学生@中南/清华, （CG&CAD） 2015 ~ 2017：工程师@宜信大数据创新中心，（互金-信贷） 2017 ~ 2019：工程师、TL@大疆创新，（社区 SkyPixel） 2019 ~ 至今：工程师@阿里云神龙计算平台，（弹性计算-异常调度） 2

4. 内容提纲 01 概述&背景 02 业界方案 03 我们的方案 • 客户诉求 • 业界方案 • 基于专家规则的自动化运维策略 • 业务难点 • 发展趋势 • 运维评价 • 发布熔断 3

5. 01 概述&背景 4

6. 概述&背景 – 客户诉求  云下环境特点 • • • • 维护成本高资源利用率低 IT 资源管理和运维复杂繁琐 … 智能自愈： • 智能编排 • 预测&自愈无人值守  客户用云述求 VM: IaaS产品天然单点可控制： • 原子操作 • 自动化异常感知： • 监控&告警 • 根因诊断可控制可感知稳定&可靠： • 稳定性 SLA • 性能 SLA 稳定&可靠需求层次 5 幸福感自动化运维提升幸福感已发生的不可用：及时止损未发生的不可用：提前规避安全感

7. 业务难点 – 基础设施规模大 100,000,000+ 部件 (CPUs, disks etc.) 200+ 可用区(AZ) 1,000,000+ 设备 28 3000+ 数据中心区域(Region) 网络和CDN节点 • 云计算基础设施规模决定了其运维复杂度 • 没有现成的产品可以借鉴，需要探索出自己的道路 6 5000+ 集群

8. 业务难点 – 产品形态多、业务领域广业务领域广热迁移（无感更换物理机）? 部分监控缺失? X86计算 G6 通用型 C6 计算型 R6 内存型 G5 通用型 C5 计算型 R5 内存型 SN2NE 通用网络增强 SN1NE 计算网络增强 I2 本地SSD HFC6 高主频计算型 SE1NE 内存网络增强 D1NE 大数据型 D2 大数据型 HFG6 高主频通用型 RE6 内存形裸金属&高性能计算异构计算 HFR6 高主频内存型 I1 本地SSD D1 大数据型 GN6v GPU计算型 F3 FPGA 计算型通用计算业务 EBM 弹性裸金属高性能高主频业务 GN6i GPU计算型 SCC 超级计算集群 GN5 GPU计算型本地盘存储大数据业务 E-HPC 弹性高性能计算 F1 FPGA 计算型 GA1 GPU可视化型异构GPU业务 Web服务器；批量计算，分布式分析，高性能科学和工程类应用和平台；广告，游戏高性能科学计算高性能前端机高性能数据库数据挖掘和分析 Redis,Memcached 内存型数据库中小型数据库数据处理任务企业后台应用 MapReduce分布式计算如 Hadoop、Spark等；分布式文件系统；日志和数据处理关系型数据库；NoSQL 数仓；内存型数据库 Hadoop/Spark集群(实时) 基因组学研究；视频编解码、图像转码；金融分析深度学习；视频处理；图形可视化；科学计算异构FPGA业务高性能数据库；高性能网站前端机；数据处理任务；企业后台应用；高性能计算、科学计算 SCC超算业务 RDMA高性能网络售卖形态多预付实例按量实例预留实例竞价实例停机不收费实例 7 DDH 实例智能机柜实例混合云一体机监控诊断运维手段有差异

9. 业务难点 - 知识面广&技术难度深链路长覆盖子系统众多技术难度深 core • Intel: SKL/ICL/Atom • AMD: MiLan/ROME • YiTian710 • kunpeng 8 CPU子系统举例 cache • LLC 一致性 • LLC 容量 QoS • LLC 争抢 IMC • IMC freq • IMC channel • memory buffer

10. 02 业界方案 9

11. 业界方案及发展 Zabbix WebUI ZabbixServer MySQL Time AlertManger Prometheus SpanID Grafana TraceID TSDB ZabbixClient ZabbixClient Zabbix Client Metric ParentSpanID Pull Push • 依赖关系 Duration Tag Tracing 应用指标新监控标准+APM产品百家齐放 BorgMon 细节公开 Cacti发布（snmp） Zabbix 备受追捧 ES1.0发布 2010 2012 ZipKin/Jaeger等 APM软件发布 Prometheus 加入CNCF 2016 • • Status Nagios发布 • • Resource ZabbixClient ZabbixClient App Exporter 传统监控时代 Log • 拓扑自动分析 OneAgent通用采集动态阈值告警影响面自动分析 APITrace分析故障根因分析拓扑数据化/AIOps/可观测 DynaTrace AIOps Moogsoft Saas AliYun ARMS ES APM OpenTracing 发布 OpenCensus 2017 10 2018 Azure Metric- Advisor 发布 AliyunSLS AI分析能力发布 2019 CNCF发布可观测技术雷达 2020

12. 03 我们的方案 11

13. 我们的方案 – ECS 监控运维体系发展历程工具+人工时代平台+半自动编排数据化智能化 ECS正式售卖 IDC硬件监控上线飞天底座监控上线组件监控接入 Alimonitor 2010 ECS全链路诊断平台上线交付效能提升10倍接入落日弓发布编排 2013 底层应用接入天基&监控接攻克底座入XFlush 环境问题监控采集 Agent重构计划运维（灰度系统） Cloudops 运维平台发布 2016 2017 12 自动化运维决策大脑上线监控覆盖度 99.995% 2018 内存故障预测上线攻克根因可解释性问题运维策略评价体系建设 99.9%异常自动闭环发布熔断 2019 2021

14. 我们的方案 – 整体架构运维引擎完整链路追踪客户侧事件运维定义 NC 运维运维调度运维事件磁盘类实例类工作流编排 VM 运维自助运维受损事件宕机/夯机性能受损 mns 运维决策诊断引擎 A/B Test 运维评价规则定义特征计算异常抽取数据清洗统一流控根因推导规则匹配异常定义聚合计算维度关联监控采集日志服务配置下发监控调度任务存储配置存储任务执行结果存储聚类分析日志预警日志收集查询分析可靠的底座离线数据在线数据控制面找到每一条异常的源头，通过各种数据清洗、加工、抽象后，基础的数据源已丢失，通过Tracing方式找到源头。硬件虚拟化 GUEST 资源组件地域机型集群基础设施底座 BLINK ilogtail ODPS MNS schedulerX TDDL 13 • 数据处理：承载百万级物理机的诊断能力 ODPS 承载百TB级数据传输；（hadoop） BLINK 确保每日同等数量级的数据实时性 (apache-flink) • 日志服务：类似 ELK 产品栈，提供更完整的数据处理能力（数据投递、日志聚类），以及强大的计算聚合函数 (map, json, lamda 函数等） • MNS：高效、可靠、安全、便捷、可弹性扩展的分布式消息通知服务 • TDDL：分库分表解决方案（sharding-jdbc/MyCat） • SchedulerX：基于Akka架构的分布式任务调度平台（XXL- JOB/ElasticJob）

15.  服务可降级，单元化部署我们的方案 – 监控数据采集来源 AlarmAgent 自研 Prometheus K8s开源 Nightingale 采集策略采集侧服务侧服务侧周期采集按需采集周期采集 • • 调度器轻量化采集之间数据共享服务消费数据回流存储滴滴开源采集侧 • 覆盖率：99.9% • P95 CPU 利用率： ±3% • 采集数据：100T/D 周期采集支持规模百万级节点千级别万级别结果完整度高采集回流分离中结果实时回流中结果实时回流采集自监控完善报表和告警有限节点丢失提醒有限节点丢失提醒灰度发布支持不支持不支持  代码发布灰度可控 • 问题尽早暴露 • 降低故障爆炸半径 14 告警中心其他消费 SLS (…) 节点采集采集大盘云监控 Blink 实时同步  资源最大化利用：资源有限（1-2HT）触发方式同步 ODPS SLS (张家口)  规模效应对比项 T+1 SLS (弹内)

16. 我们的方案 – 运维策略相关定义  相关定义： • • • • 监控异常特征定义运维规则运维动作 15

17. 我们的方案 – 运维评价（理论）  产生背景： • 区分运维动作的“好坏优劣”？锁机器、热迁移、下线 • 是否存在过度运维的问题？ • 对客户真实体感是什么？  评价度量*： • 性能度量 • 不可用度量权重参数：作为预期/非预期影响因子，例如客户事件响应的预期行为；产出KeyMetrics数据权重参数：异常严重程度 • 控制面度量  差异化分析： • • 显著性差异检验 - 单因素方差分析F检验（Welch's anova）精准控制切流比例 - 功效分析（Cohen’s f） [*] Levy S, et al. Predictive and Adaptive Failure Mitigation to Avert Production Cloud VM Interruptions.[C]// Operating Systems Design and Implementation. 2020. 16

18. 我们的方案 – 运维评价（工程落地）  落地方案评价模块数据加速层 KeyMetric 方差/功效分析切流建议模块 KeyMetric原始数据--ADB/SLS 加速查询 Spark算法过滤器配置 MaxCompute a. 历史异常回放对外评价API 特征分类配置回写任务导入 b. 提前命中程度统计分析 a. 每日命中资源详情 c. 漏召回详情分析 b. 每日命中资源各维度分布离线结果表 d. 新增命中资源详情分析定时计算任务静态维表异常感知模块  面临问题异常计算特征规则日志聚类数据导入离线异常特征运维策略 A/B 上线流程 A/B Test灰度切流比例建议 • 如何与现有的运维体系整合？ • 如何安全高效的灰度发布上线？ 17

19. 我们的方案 – 业务流控  业务流控： • 自动运维维持正常水位 • 有效阻止故障发生完善的数据报表支撑灵活的流控规则丰富的流控维度 18

20. 我们的方案 – 灰度发布 hash分组，降低分组亲和性  背景： • 业界大概 XX % 的生产事故由变更而触发组内客户优先级排序 • 集团全部故障中 xx %+和变更相关  业务： 8421 等发布节奏 • 支撑百万级资源的发布（千万级 VM）计算、存储、网络各组件版本，OS/CPU/ 机型/集群等30+维度 • 发布业务方数百 • 累计变更次数 n 亿 • 发布次数 n 万 19

21. 我们的方案 – 灰度发布&熔断  熔断能力发布过程，通过诊断识别异常或隐患，主动阻断发布，是提升发布稳定性的利器，XX 期间，发布有效熔断近百次，有效召回率98% 熔断次数召回率 = ∗ 100% 熔断次数 + 漏召回次数有效熔断准确率 = ∗ 100% 熔断次数 + 漏召回次数 [*] Li Z , et al. Gandalf: An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure[C]// Networked Systems Design and Implementation. 2020. 20

22. 总结  概述  业界方案 o 客户上云需求&稳定性述求 o 解决问题的难点 o 监控告警体系演进  自动化运维解决方案  推荐更多内容 o 监控采集：解耦、可降级、单元化、灰 o 度 o 运维策略：全链路 Trace o 运维评价：过度运维 o 稳定性利器： DryRun、A/B Test，流控、灰度、熔断 o o o 21 欢迎交流 Predictive and Adaptive Failure Mitigation to Avert Production Cloud VM Interruptions Gandalf: An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure Localizing Failure Root Causes in a Microservice through Causality Inference Predicting Node Failures in an Ultra-large- scale Cloud Computing Platform- an AIOps Solution

23.

24.