步入数字化转型深水区，云原生业务稳定性如何保障

如果无法正常显示，请先停止浏览器的去广告插件。

1. 步入云原生架构转型深水区，业务稳定性如何保障朱剑峰网易数帆资深架构师

3. 目录 1 云原生技术底座的建设规划及挑战 2 云原生架构下⻛险预⻅与根因分析 3 云原生稳定性⻛险免疫体系的规划与展望

4. 01 云原生技术底座的建设规划以及遇到的挑战

5. 企业服务化架构逐步演进过程 • 建设可支撑业务敏捷迭代，为业务展现差异化竞争能力提供关键的基础设施； • 云原生技术适合应对业务敏捷提效，快速迭代，应对高并发，资源调度等需求切实可行的技术选型；云原生稳定性建设阶段服务业态规模体量激活云原生体系企业技术规范促进技术底座成熟度高路线1：一步到位应用多活 (5)稳定性保障云原生化程度 (1) 需求调研 (7) 业务流程梳理 (2) 现状调研 (8) 划分核心领域 (3) 方法论咨询 (9) 确定界限上下文及相互关系 (4) 技术选型 (4)云原生中间件 (10) 输出按照领域横向拆分架构服务拆分 (14) 选取试点业务，横向拆分 (15) 灰度发布，平滑迁移 (16) 保障质量，纵向分层拆分服务治理 (21) 架构委员会进行服务化分组，制定拆分计划立体化监控稳定性保障 (27) 为支撑高并发，进一步拆分 (28) 跨服务数据一致性 (22) 各组按照里程碑计划，逐步拆分 (32) 故障演练立体化监控根因分析稳定性保障 (17) 业务拆分完毕，总结规范 (3)云原生网关路线2：循序渐进、分步实施 (5) 部署方案规划 (6) 部署资源准备 (2)服务网格化 (1)容器化集中式单体架构低领域设计云原生架构演进路径落地难度（涉及组织、流程、平台、架构的变革）高前期准备 (11) 技术底座部署、调试 (18) 服务引擎-注配治 (12) 产品、最佳实践培训 (19) API流量治理 (13) 规范选用及建设 (20) 分布式事务规划及部署 (23) 容器化改造， PaaS化 (29) 高级服务治理策略 (24) 全链路追踪 (30) 分库分表，中间件云原生化 (25) 应用性能监控试点打造“样板间” (26) 统一日志采集标准化推广 (31) 全链路流量治理，流量染色 (33) 同城多活异地容灾多中心单元化云原生能力展现

6. 云原生技术底座平台建设情况接入层云原生技术中台云原生EnvoyAPI网关容器平台对接多注册中心管控层微服务控制中心 (NSF) 服务治理服务网格控制中心（Istio）统一服务治理中心 NSM 云原生网关纳管多类型业务虚拟机/容器业务服务层虚拟机/容器 JAVA 业务 / 遗留系统容器 Pod App App Classic Agent Proxyless Agent 高性能云原生业务普通多语言/云原生业务性能损耗敏感性业务双擎服务网格容器 / 虚拟机 App app Pod Pod App app Pod PaaS中间件集群联邦 Per-Node Sidecar Sidecar Sidecar eBPF 中台SaaS化统一代理接入中间件服务层能力支撑应用多活立体化监控⻛险预⻅ Kafka RDS MySQL Redis RocketMQ 云原生应用运行时 Zookeeper 更多… 根因分析

7. 云计算时代国内外的稳定性事件国内外频繁出现的云服务稳定性的问题，据不完全统计，2021年国内外云服务宕机事件高达20余起，造成巨大的安全事故和经济损失。云服务事故往往存在不可预测、不可控、复杂性高等现象，更多类似的问题，已经发生或即将到来。云服务故障频发 2021年12月7日AWS由于云服务容量问题导致网络拥塞和性能下降而宕机近4个小时。 2021年10月23日微软Azure云产品出现 Windows虚拟机全球性故障，用户服务中断6个小时。 2021年7月13日美国云计算公司Fastly出现⻓达1小时的服务故障，导致全球数千家政府、网站受到影响。 2021年11月16日，Google Cloud服务器由于网络配置问题造成负载均衡中断，引发全球宕机数小时，影响波及全球用户。 2022年7月29日，神州专⻋发布通知称，因网络故障导致通讯受阻，出行平台暂时无法使用叫⻋服务，相关人员正在紧急抢修。云服务故障多样操作变更 • 人员误操作、变更失败、管理不善等代码缺陷 • 代码质量、程序逻辑、应用架构等故障平台故障 • 业务依赖的平台硬件故障、网络故障等外部环境变化 • 外部访问流量突然变大导致的系统过载、公共卫生、自然灾害、社会安全等

8. 互联网服务类业务面临的挑战高可用核心系统业务涉及⺠生，一旦故障社会影响恶劣突发流量故障诊断及快速恢复面对业务高峰、高峰期的压线上故障精准定位，全链力，需要强大的熔断保护和路追踪诊断，自动化恢复弹性伸缩能力及排障项目性能评测通过需求紧急来不及压测生产容量逐步退缩性能问题诊断与发布生产暴露问题发布生产引发故障所需资源越来越多调优依赖开发传统业务互联网化业务场景多样化应用系统微服务化应用迭代速度快规模增⻓的复杂性排障追踪的困境业务活动压力大系统稳定性要求并行项目多且周期短如何检验小步快跑的悖论稳定性演练的难度

9. 消除不确定性，云原生技术底座的重点演进方向将云原生的特性应用到业务场景上，增强传统云服务的观测性、应用韧性、高可用性、故障自愈等能力消除不确定性，为对业务系统带来的额外的保障。业务解耦软件生产力智能开发多中心多活演进方向中间件中台 SaaS化稳定性保障

10. 01 云原生架构下的⻛险预⻅与根因分析

11. 我们到底需要什么样的稳保能力？服务治理消除不确定性对业务系统带来的影响限流、熔断、降级服务路由事前⻛险预测能力降发生降影响混沌工程故障管理、故障注入、⻛险预⻅根据典型特征和趋势，预测故障兜底可能出现的⻛险架构/容量/安全/性能持续巡检立体化监控覆盖业务应用、中间件、容器、主机内核eBPF等演练报告全链路压测故障演练接口治理性能评估、容量规划、立体化监控故障观测数据隔离根因分析智能巡检、⻛险预⻅、根因分析、监控预警故障自愈应用多活降发生，通过持续巡检、⻛险评估、故障演练等将异常⻛险多活容灾能力左移，引入算法实现事前⻛险预测能力，降低潜在的⻛险；降影响，立体化监控，在故障发生后能快速定位根因，根据故障特征模版采取摘流兜底或自愈策略，把影响降至最低；指标、日志、链路全流程可视化故障追踪故障演练经验库巡检经验库服务治理建议根因分析经验库经验资产同城主备、同城双活、异地全链路追踪性能预估专家经验故障切换事后快速定位自愈 • • • • • APM kube-insight kube-diag kube-copilot ebpf/kprobe

12. 以云原生特性来增强业务稳定性保障能力事前 “降发生” 故障演练全链路压测引流回放事中提升系统稳定的时间(MTBF) 服务治理⻛险预⻅关键流程标准化服务治理混沌工程持续巡检限流熔断降级强弱依赖模糊测试预案管理⻛险预⻅演练预案库⻛险预⻅服务鉴权兜底路由⻛险预⻅服务治理建议容量⻛险安全⻛险性能⻛险 “降影响” 立体化监控高可用多活规划接口治理事后架构⻛险⻛险预⻅专家巡检规则预⻅算法库降低系统不稳定的时间 (MTTR) 根因分析错误码关联分析日志/指标/链路异常诊断无阈值告警事件分析深度指标影响范围分析多维拓扑规则引擎异常事件异常图谱规则引擎故障发现专家诊断经验库故障自愈多活容灾切换应急响应容错兜底容灾恢复新增模块 ChatGPT / AIOps 增强模块

13. 云原生稳定性保障核心场景故障演练针对⻛险异常事件的演练触发分析，设计“察打一体” 的稳保平台引流回放混沌工程强弱依赖全链路压测诊断建议持续演练根因分析⻛险预⻅ App ⻛险评估容量⻛险 App 性能⻛险架构⻛险 … 中间件集群持续巡检安全⻛险 App 运维诊断 App 专家经验沉淀 Profiling 性能剖析预测 Kubernetes集群诊断树转化虚拟机事件分析物理机专家会诊预案推荐异常诊断关联分析影响范围分析持续巡检持续观测异常事件数据支撑深度采集 eBPF旁路采集多维拓扑立体化监控无阈值告警专家规则库根因分析规则引擎预⻅算法诊断流水线编排性能剖析专家规则库云原生应用运行时

14. 建设“立体化监控”带来的云原生场景可观测性面对复杂性“不确定”⻛险，通过可观测性等技术手段将影响范围及故障恢复时间做到“确定性”的可防、可控、可治就是可观测性运维基本理念告警立体化监控深度采集收集、分析和使用信息来观察一段时间内的运行进度，并且进行相应的决策管理的过程，监控侧重于观察特定指标。日志链路指标深度采集⻛险预⻅ insight 通过分析系统生成的数据理解推演出系统内部的状态。立体化监控在回答应用是否有问题的同时，需要关联应用相关的各层的指标、链路、日志数据快速指向影响应用稳定性的根因，甚至能通过深度指标关联配合时间模型算法预测出可能出现的异常⻛险多维拓扑拟合算法⻛险预⻅

15. 深度指标采集遇到的问题为了保证观测的深度，涉及到基于ebpf内核插桩采集的内核网络指标，和自定义exporter采集指标的经验指标。深度指标关注系统指标、特定场景下的应用指标，并随着排障场景遇到场景，逐步扩充范围，实现更多场景的覆盖。指标膨胀，可读性差，依赖经验主机应用层指标（基于APM集成SDK采集）应用指标健康实例数接口QP 接口TP 接口吞吐量接口错误率线程数 … • • • • • • • 存储指标 • • • • • • 系统指标连接池线程数 SQL请求响应时间 SQL执行时间慢SQ SQL QP … • • • • • • • 中间件指标内存 CP I Socke 网卡磁盘 … • • • • • • 软中断触发次数和耗时 CPU ready队列排队⻓度进程从状态变成Ready到被调度执行的延迟物理内存分配allocpage的次数和延迟 dirty page的刷盘次数和延迟 • • • • • 内存指标 • • • • • • 容器OOM次数 kswapd scan/direct scan次数 allocpage次数、延时 flush dirty线程次数 dirty page个数 … 网络指标 • • • • • • 存储指标文件VPF的IOPS/BP 磁盘读写频率与失败率 dentry/inode数 file sync次数 memory map sync次数 file range sync次数 mount /unmount次数 … • • • • • • • • 网络协议指标 • • • • • HTTP协议调用次数、错误率、延迟 redis协议调用次数、错误率、延迟 mysql调用次数、错误率、延迟 Kafka调用次数、错误率、延迟 … • • • • • • Service Mesh Redis R Redis 错误率 MQ 任务数 Tomcat 线程数 Http Client响应时间 … 深度指标（基于内核kprobe/eBPF采集）系统指标 CPU负载、内存占用、网络延迟/丢包/阻塞、杀进程、宕机、磁盘填充… TCP状态转换的统计 TCP Reset的统计 RT TCP级别的某一个pod的topN数据统计 DNS的监控：请求数，错误率，响应时间 TCP特性监控：delay ack、 listenoverflo TCP丢包/通用请求响应协议的ping- pong延迟监控 TCP三次握手重传次数 TCP状态快照 TCP带宽 POD纬度，TOPN （BPS、PPS、SRTT、RST、重传次数、丢包） TCP转换状态统计（socket） … 网关分布式事务应用服务云原生中间件 RPC框架数据库&缓存多运行时 ……… 云平台 OpenTracin Framework支持. 中间件调用链路 ServiceMesh调用链路指标：Prometheu 系统指标&eBP 业务指标.. 日志：Logsee 事件&消息 TraceID关联... Kubernetes：生命周期、网络异常、内存溢出、内核参数… VM 网络 OpenTelemetr Kubernetes指标 Web容器云原生底座链路：AP

16. 建设立体化监控——多维拓扑将多个垂直采集器的深度指标关联起来，打通横向（链路追踪指标）和纵向（下钻深度指标）之间的关联；通过场景事件、时间将多个层级链路指标日志绘制多维拓扑，通过时序统计模型进行拟合支撑关联分析和⻛险预测 APM和哨兵： • 中间件节点I • 任意Agent/SDK采集的hostname APM和日志LogSeer： • TraceI • 业务ID 基础元数据： • 租户/项目 • 应用/单元 • 时间通用元数据： • K8S：namespaces、Container、 • 主机下：Hostname、IP

17. 立体化监控支撑云原生稳定性保障能力⻛险预⻅立体化监控支撑根因分析云原生稳定性保障平台

18. 建设⻛险预测能力——老专家预判 • 如何应对实际环境中存在的一些典型故障的趋势性的异常，这些将来可能出现的故障？核心能力 • 偶发pod重启 • 内存泄露 • 流量激增通过绘制的多维拓扑，时序统计模型算法拟合后，进行关联分析，引入“老专家经验”，实现⻛险预⻅和无阈值告警。专家规则库

19. ⻛险预测——巡检与预警基于云原生的运维巡检经验智能化稳定性预警，例如：在时序数据统计模型基础上的实现⻛险预测 • 调用延迟抖动 • 容量水位增⻓过快 ❖通过大量故障排查与总结经验形成巡检逻辑稳定性报表 ❖从多维度获取稳定性巡检数据算法与规则 ❖给出受管控服务需要主动关注的稳定性隐患： • 冗余缺失的topic • Redis cluster节点水位或负载不均衡 • …… 稳定性管控平台 ❖容量水位趋势性问题 ❖环境与设备隐患巡检模块稳定性定期巡查： • 历史监控数据 ❖资源对象使用合理性 • 实时采集数据 ❖业务使用中的显著问题 • 容量水位信息 ❖集群配置与架构⻛险 ❖倡导稳定性主动管控，提前介入，尽量避免紧急事件发生受管理服务受管理服务⻛险预测主动巡检受管理服务

20. ⻛险预⻅——应对的场景举例

21. ⻛险预⻅——应对的场景举例预⻅是基于云原生的运维巡检经验智能化，在时序数据统计模型基础上的实现⻛险预测的事前保障模块。可以动态的指导客户系统的资源调度，降低客户系统资源消耗，提高系统SLA。服务调用链缓慢服务请求整体变慢的趋势，基于缓慢响应时间阈值，查询所有的慢调用链数据，逐条分析每一条调用链，找出其中的慢调用点，统计其原因，大致可以分为代码问题/远程调用问题/资源问题，再与服务本身的请求量、依赖、GC以及CPU数据进行关联性分析，试图找出调用链缓慢的真实原因服务响应抖动服务的响应时间大致符合正态分布，基于统计学算法以及⻓时间的响应时间基线，对于偏离正态分布过多的响应时间进行分析，与服务本身的请求量、依赖、GC以及CPU数据进行关联性分析，分析可能是上游存在强依赖服务导致服务内存分配失败通过统计学算法从监控数据中提取服务内存分配情况的特征值，检测服务Pod是否存在内存分配失败的情况，内存分配失败较多意味着内存使用不合理，存在泄露或者资源设置过小

22. 建设根因分析平台基于立体化监控采集云原生应用及k8s的深度指标，定位根因，将人工分析经验固化成自动化诊断分析工具，通过历史故障场景的梳理，形成诊断经验库，核心告警触发后会自动检索，并自动推送预案或执行应急恢复策略。精准定位根因定位具体的某一个规则指标，完成规则的过滤筛选之后就得出了原因，继续往下面深入探索原因。模糊定位使用算法来进行分析，通过对阶段内的数据进行处理，输出可能造成原因的指标概率。业务出现大量警告事件：管控平台 • 磁盘IO满 • vm Ioad激增 • 大量partition 出现unde AIOps • 业务请求5XX异常异常发现无阈值告警规则引擎根因分析专家经验库诊断流水线 Operator GPT 无阈值告警根据时间轴的方式来分析当前的所有状态会导致的下一个时间点的集群情况，提升告警阈值有效性。辅助根因定位：服务监控数据源运维事件数据源环境监控数据 • 设备读写饿死引起 topic 同步异常根因分析 • 依据资深运维人员处理的排查经验与流程 • 用系统和分析引擎代替人工排查步骤 • 消费者大量拉取老数据引起磁盘只读收集所有topic历史吞吐量 • topic变更事件 • 历史网络出入流量 • 消费者变更事件 • 历史磁盘IO吞吐量 • 根据吞吐量和网络流量寻找异常读写流量的 topic 和 consume • …… • 充分结合多方位运维数据系统 • 帮助用户快速掌握海量经验沉淀的稳定性事件排查分析根据根因分析结果，认为中间件存在异常：根因分析诊断建议

23. 根因分析—诊断流水线事件触发器诊断触发器（Trigger） Prometheus Alert PagerDuty Event 报警触发 Kubernetes Event Kafka Message 消息队列触发手动触发控制面匹配事件消息模版事件消息模版 Prometheus 报警诊断流水线（OperationSet）诊断操作 A 根据模版中的配置选择诊断流水线诊断操作 B 开始诊断诊断操作 C Kubernetes 事件诊断操作 D 诊断能力管理信息采集性能剖析场景化诊断运维脚本管理创建诊断结合立体化监控数据采集，推断系统薄弱点，持续的学习与改进诊断建议数据面诊断过程调度诊断到发生问题的节点诊断操作 A 诊断完成诊断操作 B 开始诊断结论诊断（Diagnosis）诊断流水线（OperationSet）诊断操作 C 诊断操作 D 执行诊断流水线诊断流水线中心化纳管脚本任务调度执行器诊断结果管理对象存储当前诊断状态本地存储诊断结果可视化

24. 案例1：K8S Pod异常分析 3 Pod Pod 集群创建诊断诊断流水线（OperationSet）事件消息模版立体化监控 2 调用链路模板匹配监控指标 1 日志事件异常事件诊断触发器（Trigger） 4 调度获取异常 Pod 所在节点查找Pod异常监控项异常日志创建文件历史线性增加，而删除文件却较少查找机器异常监控项异常日志 Docker Unlink调用突发，CP 利用率增加匹配已知的Docker Bu 库条件节点A Pod处于Termnating 6 诊断建议与Docker Bug库不匹配节点B Pod运行正常节点C Pod处于Termnating 5 执行诊断生成改进建议报告诊断分析（Diagnosis）背景：立体化监控系统发现Pod异常告警，随后业务反馈滚动发布一直无法完成，待删除的Pod始终处于Pod Terminating状态。研发人员已经根据经验排查了常⻅的一些原因，但仍然无法解决，初步推断可能是系统或者集群层面因素导致的。解决：通过平台对异常日志与已知容器Bug的匹配发现：(1)Pod历史上新建文件比较多，基本线性增加，但是删除很少；(2) 主机Dockerd当前CPU利用率高，大量执行Unlink删除文件；(3)未与已知的Bug匹配等。经过分析推导结论为业务创建文件过多一直未删除，在最终清理容器的时候一次性删除，导致耗时很久。随后业务方优化文件清理策略，后续问题彻底解决。

25. 案例2：容器性能瓶颈分析 3 业务高峰创建诊断诊断流水线（OperationSet）发现出问题的节点Dockerd配置扫描节点的性能参数配置跟基准配置不符事件消息模版立体化监控 2 调用链路模板匹配监控指标日志事件 1 异常事件诊断触发器（Trigger） 4 调度诊断节点调度进行业务profiling 找差异 profiling 业务以及节点的异常监控数据查看问题节点上副本profiling存在若干处理fd不够的堆栈 6 诊断建议没发现明显异常节点A 节点B 节点C 性能压力过大性能压力过大业务运行正常 5 执行诊断生成改进建议报告诊断分析（Diagnosis）背景：用户在业务高峰期的时候，发现部分节点上的业务处理能力达到瓶颈，而部分节点上的业务正常，所有业务的启动参数均使用相同参数，初步怀疑是系统环境原因造成的。解决：通过智能诊断平台触发执行诊断流水线对系统配置进行扫描和Profiling，并与集群环境中的标准化参数进行比对。智能诊断平台分析后发现该问题是由于节点上文件数等参数配置不合理造成，给出诊断建议：Docker启动参数中的LimitNOFILE、LimitNPROC参数不一致导致所引发的现象。用户根据诊断报告中的优化建议对部分服务组件的调度策略进行问题解决。

26. 云原生中间件稳定性管控建设成果中间件资源管控-巡检大盘中间件巡检报告-⻛险预⻅中间件巡检报告-⻛险建议 ● 自动化稳定性巡检提供自动化、智能化稳定性管控能力，帮助运维人员“防患于未然”的集群运维稳定性巡检与预警能力，能够帮助运维人员在故障发生之前感知潜在⻛险并提前介入处置。 ● 标准化配置管理实现稳定性巡检任务配置管理、巡检项、巡检集和巡检模版的统一配置管理。

27. 云原生中间件稳定性管控建设成果中间件异常⻛险大盘中间件根因分析报告 ● 智能化根因分析 • 依据资深运维人员处理的排查经验与流程，用系统和分析引擎代替人工排查步骤 • 充分结合立体化监控深度采集的多方位运维数据 • 来自海量经验沉淀的稳定性事件排查分析设计的经验规则引擎 ● 故障自愈在根因定位后再次根据经验判断是否可以通过较标准操作解决紧急⻛险通过兼容各环境的自动化运维框架执行标准止血操作，避免引发不可恢复故障在 AI 辅助根因分析基础上的实现⻛险急救基于云原生的运维经验智能化

28. 02 云原生稳定性⻛险免疫体系的规划与展望

29. 服务自愈故障自愈决策基于云原生的运维经验智能化在 AI 辅助根因分析基础上的实现⻛险急救规则引擎分析故障自愈： AIOps自愈系统 • 如果是均衡性问题，则尝试后台进行 ❖ 依据资深运维人员处理的排查经验与流程，用系统和分析引擎代替人工排查步骤主动rebalance 管控平台 • 如果是流量异常暴增问题，则临时主动降低relention time，避免问题导致系统全部不可用 AI智能分析 ❖ 充分结合立体化监控深度采集的多方位运维数据 ❖ 来自海量经验沉淀的稳定性事件排查分析设计的经验监控报警规则引擎 ❖ 通过兼容各环境的自动化运维框架执行标准止血操强化训练算法模型经验与关联性引擎规则引擎分析专家会诊根因分析根因分析 Kafka突然出现磁盘水位告急⻛险 ❖ 在根因定位后再次根据经验判断是否可以通过较标准操作解决紧急⻛险事件中心触发逻辑机器学习受故管控服务服务监控数据源运维事件数据源环境监控数据⻛险预测模块作，避免引发不可恢复故障主动巡检模块 • 收集所有topic历史吞吐量 • 历史网络出入流量 • 收集当前topic占用空间大小 • 历史磁盘IO吞吐量 • 收集当期partition倾斜程度立体化监控

30. 多中心多活架构设计，行业核心业务连续性保障机制轻舟云原生平台底座 DNS / GSLB 业务接入层负载均衡接入网关能力描述关键能力流量切换流量管控路由规则微服务框架业务处理层服务网格分布式事务数据存储层数据迁移工具数据同步工具 • 流量管控：可制定限流等策略实现流量控制； • 分配变更：计划内和计划外的各类业务分配变更注册中心：基于不同场景方案提供注册发现能力；单元化感知单元化路由单元化分发中间件平台分布式数据库 • 路由规则：提供单元化路由规则配置的能力；提供支持多活能力的业务处理层核心技术组件，处理业务的单元化调用。注册中心配置中心提供全局接入网关，可以按照业务分片规则，精确转发请求到目标业务单元。配置中心：提供全局配置中心，并支持单元推送配置；微服务框架和服务网格： • 基于SDK/Agent/Sidecar和业务集成，支持单元路由以及重定向能力； • 单元感知：感知服务所在的单元和机房等信息 • 单元路由：提供单元之间、单元和非单元化各项服务之间的路由； • 单元分发：支持配置的单元推送、任务的单元分配等能力；数据同步禁写管控超时策略提供多活支持的数据库存储层能力，包含数据同步、禁写管控、超时策略等。 • 数据同步：单元之间的数据同步，也需要解决回环和冲突检测问题； • 禁写管控：如针路由纠错、切流时短暂混沌时间下的路由不一致情况进行写保护处理。 • 超时策略：数据库故障等情况导致的超时策略配置如切换到备数据库。

31. 基于云原生特性增强的稳定性⻛险免疫体系事前事中 “降发生” 故障演练全链路压测引流回放服务治理⻛险预⻅服务治理日志/指标/链路持续巡检强弱依赖⻛险预⻅演练预案库错误码关键流程标准化限流熔断降级预案管理立体化监控高可用多活规划接口治理⻛险预⻅服务鉴权兜底路由⻛险预⻅服务治理建议 “打疫苗” “降影响” 混沌工程模糊测试事后容量⻛险安全⻛险性能⻛险架构⻛险⻛险预⻅专家巡检规则预⻅算法库经验入库根因分析关联分析多活容灾切换故障文化影响面分析异常诊断无阈值告警事件分析深度指标影响范围分析多维拓扑规则引擎异常事件故障自愈异常图谱应急响应善后处理容错兜底改进项跟踪容灾恢复故障特征改进建议规则引擎故障发现专家诊断经验库经验入库 ChatGPT / AIOps

32.