步入数字化转型深水区,云原生业务稳定性如何保障

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 步入云原生架构转型深水区, 业务稳定性如何保障 朱剑峰 网易数帆资深架构师
2.
3. 目录 1 云原生技术底座的建设规划及挑战 2 云原生架构下⻛险预⻅与根因分析 3 云原生稳定性⻛险免疫体系的规划与展望
4. 01 云原生技术底座的建设规划以及遇到的挑战
5. 企业服务化架构逐步演进过程 • 建设可支撑业务敏捷迭代,为业务展现差异化竞争能力提 供关键的基础设施; • 云原生技术适合应对业务敏捷提效,快速迭代,应对高并 发,资源调度等需求切实可行的技术选型; 云原生稳定性建设阶段 服务业态规模体量 激 活 云原生体系 企业技术规范 促 进 技术底座成熟度 高 路线1:一步到位 应用多活 (5)稳定性保障 云 原 生 化 程 度 (1) 需求调研 (7) 业务流程梳理 (2) 现状调研 (8) 划分核心领域 (3) 方法论咨询 (9) 确定界限上下 文及相互关系 (4) 技术选型 (4)云原生中间件 (10) 输出按照领域 横向拆分架构 服务拆分 (14) 选取试点业 务,横向拆分 (15) 灰度发布,平 滑迁移 (16) 保障质量,纵 向分层拆分 服务治理 (21) 架构委员会进 行服务化分组,制 定拆分计划 立体化监控 稳定性保障 (27) 为支撑高并 发,进一步拆分 (28) 跨服务数据一 致性 (22) 各组按照里程 碑计划,逐步拆分 (32) 故障演练 立体化监控 根因分析 稳定性保障 (17) 业务拆分完 毕,总结规范 (3)云原生网关 路线2:循序渐进、分步实施 (5) 部署方案规划 (6) 部署资源准备 (2)服务网格化 (1)容器化 集中式 单体架构 低 领域设计 云原生架构演进路径 落地难度(涉及组织、流程、平台、架构的变革) 高 前期准备 (11) 技术底座部 署、调试 (18) 服务引擎-注 配治 (12) 产品、最佳实 践培训 (19) API流量治理 (13) 规范选用及建 设 (20) 分布式事务 规划及部署 (23) 容器化改造, PaaS化 (29) 高级服务治理 策略 (24) 全链路追踪 (30) 分库分表,中 间件云原生化 (25) 应用性能监控 试点 打造“样板间” (26) 统一日志采集 标准化推广 (31) 全链路流量治 理,流量染色 (33) 同城多活 异地容灾 多中心单元化 云原生能力展现
6. 云原生技术底座平台建设情况 接 入 层 云原生技术中台 云原生EnvoyAPI网关 容器平台 对接多注册中心 管 控 层 微服务控制中心 (NSF) 服务治理 服务网格控制中心 (Istio) 统一服务治理中心 NSM 云原生网关 纳管多类型业务 虚拟机/容器 业 务 服 务 层 虚拟机/容器 JAVA 业务 / 遗留系统 容器 Pod App App Classic Agent Proxyless Agent 高性能云原生业务 普通多语言/云原生业务 性能损耗敏感性业务 双擎服务网格 容器 / 虚拟机 App app Pod Pod App app Pod PaaS中间件 集群联邦 Per-Node Sidecar Sidecar Sidecar eBPF 中台SaaS化 统一代理接入 中 间 件 服 务 层 能力支撑 应用多活 立体化监控 ⻛险预⻅ Kafka RDS MySQL Redis RocketMQ 云原生应用运行时 Zookeeper 更多… 根因分析
7. 云计算时代国内外的稳定性事件 国内外频繁出现的云服务稳定性的问题,据不完全统计,2021年国内外云服务宕机事件高达20余起,造成巨大的安全事故和经济损失。 云服务事故往往存在不可预测、不可控、复杂性高等现象,更多类似的问题,已经发生或即将到来。 云服务故障频发 2021年12月7日AWS由于云服务容量问题导致 网络拥塞和性能下降而宕机近4个小时。 2021年10月23日微软Azure云产品出现 Windows虚拟机全球性故障,用户服务中断6个 小时。 2021年7月13日美国云计算公司Fastly出现⻓ 达1小时的服务故障,导致全球数千家政府、 网站受到影响。 2021年11月16日,Google Cloud服务器由于网 络配置问题造成负载均衡中断,引发全球宕机 数小时,影响波及全球用户。 2022年7月29日,神州专⻋发布通知称,因网 络故障导致通讯受阻,出行平台暂时无法使用 叫⻋服务,相关人员正在紧急抢修。 云服务故障多样 操作 变更 • 人员误操作、变更失败 、管理不善等 代码 缺陷 • 代码质量、程序逻辑、应用架构等故障 平台 故障 • 业务依赖的平台硬件故障、网络故障等 外部 环境 变化 • 外部访问流量突然变大导致的系统过载、 公共卫生、自然灾害、社会安全等
8. 互联网服务类业务面临的挑战 高可用 核心系统业务涉及⺠生, 一旦故障社会影响恶劣 突发流量 故障诊断及快速恢复 面对业务高峰、高峰期的压 线上故障精准定位,全链 力,需要强大的熔断保护和 路追踪诊断,自动化恢复 弹性伸缩能力 及排障 项目性能评测通过 需求紧急来不及压测 生产容量逐步退缩 性能问题诊断与 发布生产暴露问题 发布生产引发故障 所需资源越来越多 调优依赖开发 传统业务互联网化 业务场景多样化 应用系统微服务化 应用迭代速度快 规模增⻓的复杂性 排障追踪的困境 业务活动压力大 系统稳定性要求 并行项目多且周期短 如何检验 小步快跑的悖论 稳定性演练的难度
9. 消除不确定性,云原生技术底座的重点演进方向 将云原生的特性应用到业务场景上, 增强传统云服务的观测性、应用韧性、高可用性、故障自愈等能力 消除不确定性,为对业务系统带来的额外的保障。 业务解耦 软件生产力 智能开发 多中心多活 演进方向 中间件中台 SaaS化 稳定性保障
10. 01 云原生架构下的⻛险预⻅与根因分析
11. 我们到底需要什么样的稳保能力? 服务治理 消除不确定性对业务系统带来的影响 限流、熔断、降级 服务路由 事前⻛险预测能力 降发生 降影响 混沌工程 故障管理、故障注入、 ⻛险预⻅ 根据典型特征和趋势,预测 故障兜底 可能出现的⻛险 架构/容量/安全/性能 持续巡检 立体化监控 覆盖业务应用、中间件、 容器、主机内核eBPF等 演练报告 全链路压测 故障演练 接口治理 性能评估、容量规划、 立体化监控 故障观测 数据隔离 根因分析 智能巡检、⻛险预⻅、 根因分析、监控预警 故障自愈 应用多活 降发生,通过持续巡检、⻛险评估、故障演练等将异常⻛险 多活容灾能力 左移,引入算法实现事前⻛险预测能力,降低潜在的⻛险; 降影响,立体化监控,在故障发生后能快速定位根因,根据 故障特征模版采取摘流兜底或自愈策略,把影响降至最低; 指标、日志、链路全流 程可视化 故障追踪 故障演练经验库 巡检经验库 服务治理建议 根因分析经验库 经验资产 同城主备、同城双活、异地 全链路追踪 性能预估 专家经验 故障切换 事后快速定位自愈 • • • • • APM kube-insight kube-diag kube-copilot ebpf/kprobe
12. 以云原生特性来增强业务稳定性保障能力 事前 “降发生” 故障演练 全链路压测 引流回放 事中 提升系统稳定的时间(MTBF) 服务治理 ⻛险预⻅ 关键流程标准化 服务治理 混沌工程 持续巡检 限流熔断降级 强弱依赖 模糊测试 预案管理 ⻛险预⻅ 演练预案库 ⻛险预⻅ 服务鉴权 兜底路由 ⻛险预⻅ 服务治理建议 容量 ⻛险 安全 ⻛险 性能 ⻛险 “降影响” 立体化监控 高可用多活规划 接口治理 事后 架构 ⻛险 ⻛险预⻅ 专家巡检规则 预⻅算法 库 降低系统不稳定的时间 (MTTR) 根因分析 错误码 关联分析 日志/指标/链路 异常诊断 无阈值告警 事件分析 深度指标 影响范围分析 多维拓扑 规则引擎 异常事件 异常图谱 规则引擎 故障发现 专家诊断经验库 故障自愈 多活容灾切换 应急响应 容错兜底 容灾恢复 新增模块 ChatGPT / AIOps 增强模块
13. 云原生稳定性保障核心场景 故障演练 针对⻛险异常事件的演练触发分 析,设计“察打一体” 的稳保平台 引流回放 混沌工程 强弱依赖 全链路压测 诊断建议 持续演练 根因分析 ⻛险预⻅ App ⻛险评估 容量⻛险 App 性能⻛险 架构⻛险 … 中间件集群 持续巡检 安全⻛险 App 运维诊断 App 专家经验沉淀 Profiling 性能剖析 预测 Kubernetes集群 诊断树转化 虚拟机 事件分析 物理机 专家会诊 预案推荐 异常诊断 关联分析 影响范围分析 持续巡检 持续观测 异常事件 数据支撑 深度采集 eBPF旁路采集 多维拓扑 立体化监控 无阈值告警 专家 规则库 根因分析 规则引擎 预⻅算法 诊断流水线编排 性能剖析 专家 规则库 云 原 生 应 用 运 行 时
14. 建设“立体化监控”带来的云原生场景可观测性 面对复杂性“不确定”⻛险,通过可观测性等技术手段将影响范围及故障恢复时间做到“确定性”的可防、可控、可治就是可观测性运维基 本理念 告警 立体化监控 深度采集 收集、分析和使用信息来观察一段时间 内的运行进度,并且进行相应的决策管 理的过程,监控侧重于观察特定指标。 日志 链路指标 深度采集 ⻛险预⻅ insight 通过分析系统生成的数据理解推演出 系统内部的状态。 立体化监控在回答应用是否有问题的同时,需要关联应用相关的各层 的指标、链路、日志数据快速指向影响应用稳定性的根因,甚至能通 过深度指标关联配合时间模型算法 预测出可能出现的异常⻛险 多维拓扑 拟合算法 ⻛险预⻅
15. 深度指标采集遇到的问题 为了保证观测的深度,涉及到基于ebpf内核插桩采集的内核网络指标,和自定义exporter采集指标的经验指标。深度指标关注系统指标、 特定场景下的应用指标,并随着排障场景遇到场景,逐步扩充范围,实现更多场景的覆盖。指标膨胀,可读性差,依赖经验 主机 应用层指标(基于APM集成SDK采集) 应用指标 健康实例数 接口QP 接口TP 接口吞吐量 接口错误率 线程数 … • • • • • • • 存储指标 • • • • • • 系统指标 连接池线程数 SQL请求响应时间 SQL执行时间 慢SQ SQL QP … • • • • • • • 中间件指标 内存 CP I Socke 网卡 磁盘 … • • • • • • 软中断触发次数和耗时 CPU ready队列排队⻓度 进程从状态变成Ready到被调度 执行的延迟 物理内存分配allocpage的次数 和延迟 dirty page的刷盘次数和延迟 • • • • • 内存指标 • • • • • • 容器OOM次数 kswapd scan/direct scan次数 allocpage次数、延时 flush dirty线程次数 dirty page个数 … 网络指标 • • • • • • 存储指标 文件VPF的IOPS/BP 磁盘读写频率与失败率 dentry/inode数 file sync次数 memory map sync次数 file range sync次数 mount /unmount次数 … • • • • • • • • 网络协议指标 • • • • • HTTP协议调用次数、错误率、延迟 redis协议调用次数、错误率、延迟 mysql调用次数、错误率、延迟 Kafka调用次数、错误率、延迟 … • • • • • • Service Mesh Redis R Redis 错误率 MQ 任务数 Tomcat 线程数 Http Client响应时间 … 深度指标(基于内核kprobe/eBPF采集) 系统指标 CPU负载、内存占用、网络延迟/丢包/阻塞、杀进程、宕机、磁盘填充… TCP状态转换的统计 TCP Reset的统计 RT TCP级别的某一个pod的topN数据 统计 DNS的监控:请求数,错误率,响 应时间 TCP特性监控:delay ack、 listenoverflo TCP丢包/通用请求响应协议的ping- pong延迟监控 TCP三次握手重传次数 TCP状态快照 TCP带宽 POD纬度,TOPN (BPS、PPS、SRTT、RST、重传 次数、丢包) TCP转换状态统计(socket) … 网关 分布式事务 应用服务 云原生中间件 RPC框架 数据库&缓存 多运行时 ……… 云平台 OpenTracin Framework支持. 中间件调用链路 ServiceMesh调用链路 指标:Prometheu 系统指标&eBP 业务指标.. 日志:Logsee 事件&消息 TraceID关联... Kubernetes:生命周期、网络异常、内存溢出、内核参数… VM 网络 OpenTelemetr Kubernetes指标 Web容器 云原生底座 链路:AP
16. 建设立体化监控——多维拓扑 将多个垂直采集器的深度指标关联起来, 打通横向(链路追踪指标)和纵向(下钻深度指标)之间的关联;通过场景 事件、时间将多个层级链路指标日志绘制多维拓扑,通过时序统计模型进行拟合支撑关联分析和⻛险预测 APM和哨兵: • 中间件节点I • 任意Agent/SDK采集的hostname APM和日志LogSeer: • TraceI • 业务ID 基础元数据: • 租户/项目 • 应用/单元 • 时间 通用元数据: • K8S:namespaces、Container、 • 主机下:Hostname、IP
17. 立体化监控支撑云原生稳定性保障能力 ⻛险预⻅ 立 体 化 监 控 支撑 根因分析 云原生稳定性保障平台
18. 建设⻛险预测能力——老专家预判 • 如何应对实际环境中存在的一些典型故障的趋势性的异常,这些 将来可能出现的故障? 核 心 能 力 • 偶发pod重启 • 内存泄露 • 流量激增 通过绘制的多维拓扑,时序统计模型算法拟合后,进行关联分析, 引入“老专家经验”,实现⻛险预⻅和无阈值告警。 专 家 规 则 库
19. ⻛险预测——巡检与预警 基于云原生的运维巡检经验智能化 稳定性预警,例如: 在时序数据统计模型基础上的实现⻛险预测 • 调用延迟抖动 • 容量水位增⻓过快 ❖通过大量故障排查与总结经验形成巡检逻辑 稳定性报表 ❖从多维度获取稳定性巡检数据 算法与规则 ❖给出受管控服务需要主动关注的稳定性隐患: • 冗余缺失的topic • Redis cluster节点水位或负载不均衡 • …… 稳定性管控平台 ❖容量水位趋势性问题 ❖环境与设备隐患 巡检模块 稳定性定期巡查: • 历史监控数据 ❖资源对象使用合理性 • 实时采集数据 ❖业务使用中的显著问题 • 容量水位信息 ❖集群配置与架构⻛险 ❖倡导稳定性主动管控,提前介入,尽量避免紧急事件发生 受管理服务 受管理服务 ⻛险预测 主动巡检 受管理服务
20. ⻛险预⻅——应对的场景举例
21. ⻛险预⻅——应对的场景举例 预⻅是基于云原生的运维巡检经验智能化,在时序数据统计模型基础上的实现⻛险预测的事前保障模块。可以动态的指导客户系统的资源调度,降低 客户系统资源消耗,提高系统SLA。 服务调用链缓慢 服务请求整体变慢的趋势,基于缓慢响应时间阈值,查询所有的慢调用链数据,逐条分析每一条调用链, 找出其中的慢调用点,统计其原因,大致可以分为代码问题/远程调用问题/资源问题,再与服务本身的请 求量、依赖、GC以及CPU数据进行关联性分析,试图找出调用链缓慢的真实原因 服务响应抖动 服务的响应时间大致符合正态分布,基于统计学算法以及⻓ 时间的响应时间基线,对于偏离正态分布过多的响应时间进 行分析,与服务本身的请求量、依赖、GC以及CPU数据进 行关联性分析,分析可能是上游存在强依赖服务导致 服务内存分配失败 通过统计学算法从监控数据中提取服务内存分配情况的特 征值,检测服务Pod是否存在内存分配失败的情况,内存 分配失败较多意味着内存使用不合理,存在泄露或者资源 设置过小
22. 建设根因分析平台 基于立体化监控采集云原生应用及k8s的深度指标,定位根因,将人工分析经验固化成自动化诊断分析工具,通过历史故障场景的梳理,形成 诊断经验库,核心告警触发后会自动检索,并自动推送预案或执行应急恢复策略。 精准定位 根因定位具体的某一个规则指标,完成规则的过 滤筛选之后就得出了原因,继续往下面深入探索 原因。 模糊定位 使用算法来进行分析,通过对阶段内的数据进行 处理,输出可能造成原因的指标概率。 业务出现大量警告事件: 管控平台 • 磁盘IO满 • vm Ioad激增 • 大量partition 出现unde AIOps • 业务请求5XX异常 异常发现 无阈值告警 规则引擎 根因分析 专家经验库 诊断流水线 Operator GPT 无阈值告警 根据时间轴的方式来分析当前的所有状态会导致 的下一个时间点的集群情况,提升告警阈值有效 性。 辅助根因定位: 服务监控数据源 运维事件数据源 环境监控数据 • 设备读写饿死引起 topic 同步异常 根因分析 • 依据资深运维人员处理的排查经验与流程 • 用系统和分析引擎代替人工排查步骤 • 消费者大量拉取老数据引起磁盘只读 收集所有topic历史吞吐量 • topic变更事件 • 历史网络出入流量 • 消费者变更事件 • 历史磁盘IO吞吐量 • 根据吞吐量和网络流量寻找异常读写流量的 topic 和 consume • …… • 充分结合多方位运维数据系统 • 帮助用户快速掌握海量经验沉淀的稳定性事件 排查分析 根据根因分析结果,认为中间件存在异常: 根因分析 诊断建议
23. 根因分析—诊断流水线 事件触发器 诊断触发器(Trigger) Prometheus Alert PagerDuty Event 报警触发 Kubernetes Event Kafka Message 消息队列触发 手动触发 控 制 面 匹配事件消息模版 事件消息模版 Prometheus 报警 诊断流水线(OperationSet) 诊断操作 A 根据模版中的配置选择诊断流水线 诊断操作 B 开始诊断 诊断操作 C Kubernetes 事件 诊断操作 D 诊断能力管理 信息采集 性能剖析 场景化诊断 运维脚本管理 创建诊断 结合立体化监控数据采集,推断系统薄弱点,持续的学习与改进 诊断建议 数 据 面 诊断过程 调度诊断到发生问题的节点 诊断操作 A 诊断完成 诊断操作 B 开始诊断 结论 诊断(Diagnosis) 诊断流水线(OperationSet) 诊断操作 C 诊断操作 D 执行诊断 流水线 诊断流水线 中心化纳管 脚本任务调度 执行器 诊断结果管理 对象存储 当前诊断状态 本地存储 诊断结果可视化
24. 案例1:K8S Pod异常分析 3 Pod Pod 集 群 创建 诊断 诊断流水线(OperationSet) 事件消息 模版 立体化 监控 2 调用链路 模板 匹配 监控指标 1 日志 事件 异常 事件 诊断触发器 (Trigger) 4 调度 获取 异常 Pod 所在 节点 查找Pod异常监控项 异常日志 创建文件历史线性增加,而 删除文件却较少 查找机器异常监控项 异常日志 Docker Unlink调用突发,CP 利用率增加 匹配已知的Docker Bu 库条件 节点A Pod处于Termnating 6 诊断 建议 与Docker Bug库不匹配 节点B Pod运行正常 节点C Pod处于Termnating 5 执行 诊断 生成改进建议报告 诊断分析 (Diagnosis) 背景: 立体化监控系统发现Pod异常告警,随后业务反馈滚动发布一直无法完成,待删除的Pod始终处于Pod Terminating状态。研发人员已经根据经验排查了常⻅的一些原因,但仍然 无法解决,初步推断可能是系统或者集群层面因素导致的。 解决: 通过平台对异常日志与已知容器Bug的匹配发现:(1)Pod历史上新建文件比较多,基本线性增加,但是删除很少;(2) 主机Dockerd当前CPU利用率高,大量执行Unlink删除文 件;(3)未与已知的Bug匹配等。经过分析推导结论为业务创建文件过多一直未删除,在最终清理容器的时候一次性删除,导致耗时很久。随后业务方优化文件清理策略,后续 问题彻底解决。
25. 案例2:容器性能瓶颈分析 3 业务高峰 创建 诊断 诊断流水线(OperationSet) 发现出问题的节点Dockerd配置 扫描节点的性能参数配置 跟基准配置不符 事件消息 模版 立体化 监控 2 调用链路 模板 匹配 监控指标 日志 事件 1 异常 事件 诊断触发器 (Trigger) 4 调度 诊 断 节 点 调 度 进行业务profiling 找差异 profiling 业务以及节点的异常监控 数据查看 问题节点上副本profiling存在 若干处理fd不够的堆栈 6 诊断 建议 没发现明显异常 节点A 节点B 节点C 性能压力过大 性能压力过大 业务运行正常 5 执行 诊断 生成改进建议报告 诊断分析 (Diagnosis) 背景: 用户在业务高峰期的时候,发现部分节点上的业务处理能力达到瓶颈,而部分节点上的业务正常,所有业务的启动参数均使用相同参数,初步怀疑是系统环境原因造成的。 解决: 通过智能诊断平台触发执行诊断流水线对系统配置进行扫描和Profiling,并与集群环境中的标准化参数进行比对。智能诊断平台分析后发现该问题是由于节点上文件数等参 数配置不合理造成,给出诊断建议:Docker启动参数中的LimitNOFILE、LimitNPROC参数不一致导致所引发的现象。用户根据诊断报告中的优化建议对部分服务组件的调 度策略进行问题解决。
26. 云原生中间件稳定性管控建设成果 中间件资源管控-巡检大盘 中间件巡检报告-⻛险预⻅ 中间件巡检报告-⻛险建议 ● 自动化稳定性巡检 提供自动化、智能化稳定性管控能力,帮助运维人员“防患于未然”的集群运维 稳定性巡检与预警能力,能够帮助运维人员在故障发生之前感知潜在⻛险并提前 介入处置。 ● 标准化配置管理 实现稳定性巡检任务配置管理、巡检项、巡检集和巡检模版的统一配置管理。
27. 云原生中间件稳定性管控建设成果 中间件异常⻛险大盘 中间件根因分析报告 ● 智能化根因分析 • 依据资深运维人员处理的排查经验与流程,用系统和分析引擎代替人工排查步骤 • 充分结合立体化监控深度采集的多方位运维数据 • 来自海量经验沉淀的稳定性事件排查分析设计的经验规则引擎 ● 故障自愈 在根因定位后再次根据经验判断是否可以通过较标准操作解决紧急⻛险 通过兼容各环境的自动化运维框架执行标准止血操作,避免引发不可恢复故障在 AI 辅助根因分析基础上的实现⻛险急救基于云原生的运维经验智能化
28. 02 云原生稳定性⻛险免疫体系的规划与展望
29. 服务自愈 故障自愈决策 基于云原生的运维经验智能化 在 AI 辅助根因分析基础上的实现⻛险急救 规则引擎分析 故障自愈: AIOps自愈系统 • 如果是均衡性问题,则尝试后台进行 ❖ 依据资深运维人员处理的排查经验与流程,用系统和 分析引擎代替人工排查步骤 主动rebalance 管控平台 • 如果是流量异常暴增问题,则临时主 动降低relention time,避免问题导致 系统全部不可用 AI智能分析 ❖ 充分结合立体化监控深度采集的多方位运维数据 ❖ 来自海量经验沉淀的稳定性事件排查分析设计的经验 监控报警 规则引擎 ❖ 通过兼容各环境的自动化运维框架执行标准止血操 强化训练 算法 模型 经验与关联性引擎 规则引擎分析 专家会诊 根因分析 根因分析 Kafka突然出现磁盘 水位告急⻛险 ❖ 在根因定位后再次根据经验判断是否可以通过较标准 操作解决紧急⻛险 事件中心触发逻辑 机器学习 受故管控服务 服务监控数据源 运维事件数据源 环境监控数据 ⻛险预测模块 作,避免引发不可恢复故障 主动巡检模块 • 收集所有topic历史吞吐量 • 历史网络出入流量 • 收集当前topic占用空间大小 • 历史磁盘IO吞吐量 • 收集当期partition倾斜程度 立体化监控
30. 多中心多活架构设计,行业核心业务连续性保障机制 轻舟云原生平台底座 DNS / GSLB 业务接入层 负载均衡 接入网关 能力描述 关键能力 流 量 切 换 流 量 管 控 路 由 规 则 微服务框架 业务处理层 服务网格 分布式事务 数据存储层 数据迁移工具 数据同步工具 • 流量管控:可制定限流等策略实现流量控制; • 分配变更:计划内和计划外的各类业务分配变更 注册中心:基于不同场景方案提供注册发现能力; 单 元 化 感 知 单 元 化 路 由 单 元 化 分 发 中间件平台 分布式数据库 • 路由规则:提供单元化路由规则配置的能力; 提供支持多活能力的业务处理层核心技术组件,处理业务的单元化调用。 注册中心 配置中心 提供全局接入网关,可以按照业务分片规则,精确转发请求到目标业务单元。 配置中心:提供全局配置中心,并支持单元推送配置; 微服务框架和服务网格: • 基于SDK/Agent/Sidecar和业务集成,支持单元路由以及重定向能力; • 单元感知:感知服务所在的单元和机房等信息 • 单元路由:提供单元之间、单元和非单元化各项服务之间的路由; • 单元分发:支持配置的单元推送、任务的单元分配等能力; 数 据 同 步 禁 写 管 控 超 时 策 略 提供多活支持的数据库存储层能力,包含数据同步、禁写管控、超时策略等。 • 数据同步:单元之间的数据同步,也需要解决回环和冲突检测问题; • 禁写管控:如针路由纠错、切流时短暂混沌时间下的路由不一致情况进行写保护处理。 • 超时策略:数据库故障等情况导致的超时策略配置如切换到备数据库。
31. 基于云原生特性增强的稳定性⻛险免疫体系 事前 事中 “降发生” 故障演练 全链路压测 引流回放 服务治理 ⻛险预⻅ 服务治理 日志/指标/链路 持续巡检 强弱依赖 ⻛险预⻅ 演练预案库 错误码 关键流程标准化 限流熔断降级 预案管理 立体化监控 高可用多活规划 接口治理 ⻛险预⻅ 服务鉴权 兜底路由 ⻛险预⻅ 服务治理建议 “打疫苗” “降影响” 混沌工程 模糊测试 事后 容量 ⻛险 安全 ⻛险 性能 ⻛险 架构 ⻛险 ⻛险预⻅ 专家巡检规则 预⻅算法 库 经验入库 根因分析 关联分析 多活容灾切换 故障文化 影响面分析 异常诊断 无阈值告警 事件分析 深度指标 影响范围分析 多维拓扑 规则引擎 异常事件 故障自愈 异常图谱 应急响应 善后处理 容错兜底 改进项跟踪 容灾恢复 故障特征 改进建议 规则引擎 故障发现 专家诊断经验库 经验入库 ChatGPT / AIOps
32.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-13 04:01
浙ICP备14020137号-1 $Carte des visiteurs$