日常态和大促态业务稳定性保障实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 日常态和大促态业务稳定性保障实践 阿里云-服务技术-SRE / 任新 成
2.
3. 通过本次分享/材料,您可以了解到: 01 业务稳定性保障大图 02 日常态有效预防 之 故障演练 03 日常态实时防护 之 流量控制 04 日常态高效组织 之 应急协同 05 日常态快速恢复 之 多活容灾 06 大促态业务稳定性保障实践 07 业务稳定性保障未来趋势展望
4. 业务稳定性保障大图 事前预防 实时防护 高效组织 快速恢复 数据运营 -故障演练 -流量管控 -应急协同 -多活容灾 流程规范 故障分 故障注入 入口流控 场景群 流量路由 故障定责规范 稳定性分 日 常 态 应急效率 演练编排 热点隔离 人员调度 故障通告流程 流量纠错 架构感知 集群流控 电话会议 规则管理 容灾演练 熔断降级 能力整合 一键切流 故障应急流程 监控覆盖规范 变更熔断规范 运维操作红线 报警分析 …… 新人上岗认证 大 促 态 运营 大促封网规范 全链路压测 变更封网管控 大促应急流程 大促保障流程 …… 产品 机制
5. 日常态业务稳定性之有效预防 – 故障演练 规模化、场景化、自动化的组织故障演练 线上真实故障事件 一键升级 有损低频/无损高频 运维系统 模拟流量摸底 环境技术 生产环境、爆炸半径 生产环境、爆炸半径 单元化/容灾 预案系统 爆炸半径 爆炸半径 持续集成 可观测设施 自动化实验 稳态识别 适配集成 故障演练平台 应用架构 多语言架构 多平台架构 Java、Go、C++ … Windows、Linux 异构云架构 多供应商架构 私有云、公共云… 厂商A、厂商B … 客 户 界 面 丰富的演练场景 • • • • • 200+故障场景,覆盖基础设施到业务应用 支持SLB、ECS、RDS等多项阿里云服务 主机节点兼容Linux、Windows多操作系统 NEW 支持预检、断网、恢复、复盘一站式的容灾断 微服务演练2.0,支持服务级别强弱依赖自动化验证 多样的演练形式 • • • • 自定义演练机器与场景,灵活自由 经验库一键演练,简单快速 高阶演练方案,按需配置 可视化演练,支持基于业务架构拓扑一键发起演练 • • • • 业务0改造,一键接入 业务系统架构自动化感知 故障效果可视化、爆炸半径可视化 社区版在线托管至企业版,且支持一键升级至企业版 易用的演练平台 适配集成 安全的演练保障 • 多种演练恢复策略,安全可控 • 多维度权限管控,可控演练 • 应用级别的爆炸半径 NEW NEW NEW
6. 日常态业务稳定性之有效预防 – 故障演练 建设大规模演练实施的进程,加速演练执行效率,让业务更聚焦在架构风险识别与系统优化上 实施流程 实施收益 故障发现能 故障定位能 力 核心系统 监控辅助定位 力 服务响应慢 (卡) 服务无响应 (吊) 服务退出 (死) 故障处置能 力 预案执行 巡检辅助定位 服务组介入 数据损坏 影响面评估 生产环境 / 仿真环境 人工恢复 监控项检查 改进措施 故障模拟 人工触发 CI / CD 演练工单 演练次数:超过 1000 次 当日演练次数: 287 次 覆盖核心系统:超过 300 个 演练成熟度: 3级 平台等级:先进级 根因复盘 人 工 定 位 故障根因定位 研发 故 障 恢 复 切流自愈 故障应急协同 应 用 发现风险:23 类,超过 300 项 故 障 复 盘 组织运营 经验沉淀 双随机演练模式 演练大屏看板 演 练 场 景 基础设施演练 容器平台演练 业务应用演练 云服务演练 一 站 式 演 练 微服务演练 容器演练 容灾演练 可视化演练 平 台 易 用 一键接入 架构自动感知 故障效果可视化 爆炸半径可视化 演 练 防 护 多样化演练制动 生产质量分析报告 环境/资源隔离 演练数据运营 多维度权限管控 专题保障项目 应用级爆炸半径 跨部分分享
7. 日常态业务稳定性之实时防护– 流量控制 影响服务稳定运行的典型流量场景:流量激增和不稳定依赖 异常激增流量 • 激增流量导致系统 CPU / Load 飙高,无法正常处理请求 • 激增流量打垮冷系统(数据库 连接未创建,缓存未预热) • 消息投递速度过快,导致消息 处理积压 不稳定服务依赖 • 慢 SQL 查询卡爆连接池 • 第三方服务不响应,卡满线程 池 • 业务调用持续出现异常,产生 大量的副作用
8. 日常态业务稳定性之实时防护– 流量控制 原则:分层漏斗形逐级防护。资源+规则,对特定资源采取不同控制策略保障应用稳定性 CDN SLB/NGINX 动态请求 静态页面 有效请求 非法请求 容量之内 超容 机器B 机器C 机器D 机器E 机器F 后端应用 DB 其它应用 缓存 安全策略防攻击;粗放型流控 热点/普通流量探测分离;精细流控 机器A 下游依赖 动静请求分离 数据库 • 根据应用容量流控; • 实时探测应用内部不稳定调用,及时隔离; • 自适应系统防护 • 慢SQL; • 缓存击穿防护; • 不稳定第三方应用探测,隔离
9. 日常态业务稳定性之高效组织 – 应急协同 故障应急全程在协同群内闭环完成,群工具提升应急效率,缩短故障时长,保障信息安全 自动建群 人员调度 初因定位 一键电话会议 快恢预案 故障直播间 应急结束 指标统计
10. 日常态业务稳定性之快速恢复 – 多活容灾 一个朴素的原理:“基于隔离的冗余 ”进行业务快速恢复 故障发生 故障发生 排查定位 切流-业务 恢复 系统处理 系统恢复时间 = 业务恢复时间? 排查定位 系统恢复 系统处理 业务恢复 系统恢复
11. 日常态业务稳定性之快速恢复 – 多活容灾 A 云/Region B 云/Region 接入层 • 特性: CDN/DNS/IP • 自定义分流规则,接入层集群实现入口流量路由和纠错 01 单元化部署 • 支持协议:HTTP/HTTPS、Websocket • 支持云产品:DNS、SLB、CDN、GTM、HttpDNS... MSFE MSFE 30% 70% APP APP CSB CSB EDAS - HSF 服务层 单元请求分流 02 • 特性: EDAS - HSF SpringCloud Msha-Sync Msha-Sync SpringCloud AliwareMQ MQ-Router MQ-Router AliwareMQ • 支持网关模式(CSB)、直连模式(Sync 同步) 03 • 单元服务寻址能力 业务代码改造 • 服务路由保护特性 • 支持组件:EDAS-HSF、SpringCloud、Dubbo(待) 数据单元保护 04 消息层 • 特性:消息同步、消息路由保护 OSS OSS 05 • 支持组件:企业版 MQ DRDS DRDS 数据层 • 特性: RDS RDS RDS 双向 RDS • 数据同步 • 数据单元保护、延迟策略保护 • 支持组件:RDS、DRDS、OB、PolarDB、开源MySQL 容灾切流 06 数据星型复制
12. 大促态业务稳定性保障 – 双十一大促时间轴
13. 大促态业务稳定性保障 – 全链路压测 解决的核心问题:突发大流量业务场景,准确评估系统实际承载能力、确保前期准备能够支撑好预期的超大业务量 全链路压测3个核心环节:压测环境、压测平台、压测数据 压测数据 数据准备平台/文件 压测流量 流量控制平台/模型 压测环境(生产系统) 对应真实的线上环境,压测结果和问题暴露都是最真实情况,可通 过压测流量全局识别、透传(影子表),或者等比隔离环境,抑或 复用生产库(压测使用测试数据),业务挡板。 压测数据 (基础数据) 构造满足大促场景的核心基础数据(如买家、卖家、商品信息、分 区),以线上数据为数据源,进行采样、过滤和脱敏 压测流量(模型、数据) 北京阿里CDN 上海阿里CDN 河南CDN节点 各地阿里CDN 压测引擎 压测引擎 压测引擎 压测引擎 流量引擎分组 链路范围、访问量级、参数集合、基础数据的特性一起构造压测的 业务模型,和真实业务情况保持一致 全链路压测交易模型核心指标: 容量总目标、单元路由规则、拆单比、平均子订单、全链路 B/C 比 PC/ 无线比、基础压测数据模型(买家 / 商品 / 卖家数量)、优惠模 型、购物车模型、极热点模型、红包模型、平台和商家津贴比例等 压测环境 detail malldetail ic uic buy tmallbuy tp ump cart maybach tmallcart login ……
14. 大促态业务稳定性保障 – 压测熔断 全链路压测  压测平台与容量平台、限流平台、GOC、DB等进行了打通 • 容量:核心应用的CPU、RT、成功率等级指标 • 限流:非极限摸高场景触发限流&核心指标下跌 • GOC:核心业务指标(全站交易、购物车等)异常 • DB:数据库设定的核心指标异常  当发生告警时会进行溯源分析,确认后及时停止压测  安全机制 • 针对压测流量放松安全策略,使得压测流量不被判别为攻击流量  全链路压测的流量通过在链路上带上特定的压测参数来区分  所有中间件的协议都支持对压测流量的识别,使压测标识能够随着调用传递下去 • 实现下游的应用、基础中间件和存储都能够识别压测流量  全链路压测在同一个数据库的实例上对数据库表建同样结构的影子表进行数据隔离 中间件 改造
15. 大促态业务稳定性保障 – 变更封网管控 **大促准备的容量不足以支撑异地多活容灾切换所需buffer,大促态出现异常无法通过执行切流快速止损 **通过合理的大促态变更管控可以有效减少系统变更带来的风险,确保双11大促期间系统的平稳安全运行 多年大促变更封网持续优化的实践沉淀,业务模型(分层精细封网策略)+平台化(ChangeFree) 【变更系统分层封网模型】 【业务精细封网策略】 业务层 业务型 应用配置(diamond、switch…) 应用相关 应用运维(Aone、星环、…) 数据计算(D2、…)、预发环境变更(hsfops-pre、…) -核心/非核心应用 区分强弱管控 业务型 -业务低风险 业务运营(资损类) 强封弱不封 业务依赖通用组件 中间件+数据库/Tair 强弱都封 云底座 ASI kubenode CDN 调度/流量 … 全域封网场景 强管控期 弱管控期 业务大促 - 小型大促 1.7天: ( 5W 笔 /s< 交易峰值 < 0天 峰值前 1 天的 08:00 开始,至活动当天 / 结束 10W 笔 /s ) 业务大促 - 普通大促 0.25天( 6 小时) 2.7天: ( 30W 笔 /s> 交易峰值 >= 峰值前 4 小时、峰值后 2 峰值前 2 天的 08:00 开始,至活动当天 / 结束 小时 10W 笔 /s ) 1.2天: 业务大促 - 高峰大促 4天: 峰值前 1 天 + 峰值后 4 小 (交易峰值 >= 30W 笔 /s ) 峰值前 3 天,至活动当天 / 结束 时 节假日 (国庆、春节) 0天 国庆 7 天,春节 9 天: 节假日期间(仅春节前后各增加 1 天) 重保 建党、 0天 重保时段执行弱管控 全局基础组件 计算 物理网络 存储 IDC 云网络 云上基座 基础设施 服务器 天基 … 云安全 … 强弱都封 「名词定义」 全域封网:参与封网BU和变更系统均超过20个&持续时长超过1小时;全域封网严格控制封网时长和范围 强管控:所有操作的变更系统全封,紧急发布、白名单审核、一键审批集中管理,大促回收至大队长管理 弱管控:底层基础平台全封、业务依赖通用系统全封、核心业务全封,非核心业务不做管控,破网审批BU闭环
16. 大促态业务稳定性保障 – 变更封网管控 变更管控平台-ChangeFree的设计框架,接入CF后执行变更的流程
17. 大促态业务稳定性保障 – 变更封网管控 某次双11大促封网管控案例 弱管控期:业务核心组件封网 + 控制在“BU内队长”审批 • 应用类:仅大促相关的BU核心应用封网 • 通用服务类:业务依赖公共组件+全局基础组件 弱管控期 10.27 10.29 强管控期:大促相关全量封网 + 需要“大队长”审批 • 应用类:大促相关BU的全量业务 • 通用服务类:影响大促的所有操作和对象封网 强管控期 10.31 0点 11.1 4点 弱管控期 11.2 11.8 强管控期 11.10 0点 11.11 4点 变更类型 应 用 类 应用运维 应用配置 运营 数据计算 通 用 服 务 类 中间件管控 应用运维 (Aone、Normandy、星环) 应用配置(diamond、switch等) 应用运维 (Aone、Normandy、星环) 应用配置(diamond、switch等) 20年双11 弱管控, 21年双11 不封网 仅核心应用 全部应用 仅核心应用全部应用 峰值前后半小时 数据平台D2 20年双11 弱管控, 21年双11 不封网 峰值前后小半时 数据平台D2 中间件管控 中间件管控 数据库、Tair 数据库、Tair 云产品 计算、存储、网络、调度、容器、CDN、云安 全等等 计算、存储、网络、调度、容器、CDN、云安全等等 基础设施 网络、服务器、IDC等 基础设施封网 网络、服务器、IDC等 基础设施封网 数据库/Tair 11.12
18. 大促态业务稳定性保障 – 大促态应急流程
19. 大促态业务稳定性保障 – 大促指挥大屏:大促核心指标运行状态一览 大促态应急流程
20. 业务稳定性保障 – 机制文化建设 度量体系 影响层级 Bu Head 重大故障影响 (BG) 核心可用率 (核心BU) 技术TL 稳定性 负责人 运营活动 故障时长 (下钻至BU、 各子团队) 故障分 (下钻至BU、 各子团队) 季度回顾 新人培训 预案演练 红黑榜 安全生产课 程制作 BU安全 生产周会 年度回顾 安全生产日 红蓝对抗 全民扫雷 断网容灾演 练 生产突袭 红烂苹果 安全生产 之星 规范 流程 故障定责规范 故障应急流程 变更管控规范 故障通告流程 变更熔断规范 业务监控接入 大促封网规范 工单处理流程 运维操作红线 大促保障流程 系统上线规范 活动应急流程 新人上岗认证 值班长应急机制 …… …… 安全生产认证&新人持证上岗 一线人员 打造“技术风险,人人有责”的意识文化 机制规范问责、奖惩激励、线上线下文化活动 日常 落地经验: 每月 季度 年 • 组织保障:重视服务稳定性 • 过程、结果数据及产品支撑 • 乱世重典,盛世恤刑 • 先定标准,再不断提升水位 时间频度
21. 业务稳定性保障的未来趋势展望 面 向 高 可 用 架 构 和 SR E型 组 织 的 业 务 稳 定 性 能 力 监控中心 风险预警 Risk Warning 事件中心 应用监控 告警升级 应急场景定义 故障处理与复盘 业务监控 告警降噪 应急事件响应 ChaOps故障跟踪 设备监控 事件集成 事件转故障 故障统计与分析 监控大盘 ChatOps告警协同 ChatOps事件预警 故障订阅 根因定位 决策支撑 Decision Support 指挥调度 Command and Control 组织运营 Operations Management 智能分析 日志中心 智能巡检 数据库调用分析 多方式接入 指标关联类根因定位 接口调用分析 日志采集配置 调用异常类根因定位 应用性能分析 日志解析管理 多维异常类根因定位 调用链查询 日志检索 性能压测 流量防护 开关预案 容灾多活 场景可视化编排 应用/网关防护 应用接入 同城多活 压测监控/调速/报告 流控/熔断/热点隔离 开关定义与推送 异地双活/多活 Jmeter压测 自适应流控/流量监控 URL类预案管理 异地应用双活 流量录制与场景导入 降级/重试/Nginx流控 文本类预案管理 混合云(异构云) 组织管理 工单管理 知识库 演练评测 业务产品线 多渠道工单申请 知识仓库 基础演练与编排 应急服务组 工单查询与调度 知识检索 架构感知 应用人员管理 工单接手/响应 知识问答 工单分析 知识图谱 人员排班/值班 业务连续性保障 IT 运营效能提升 演练经验库 1 5 10 应 急 响 应  持续的体系沉淀 • 阿里内部多年打磨,体系化的方法论沉淀 • 阿里外部多年输出,多个行业头部客户落地  全周期的产品方案 护 航 保 障 • 围绕应用架构,提供领域闭环的产品方案 • 围绕企业组织,提供定制化的适配方案  场景化的最佳实践 • 围绕业务连续性场景,提供标准的服务能力和 组织架构设计与咨询 攻 防 演 练  开放的发展策略 • 策略开放,核心技术无差别 • 生态开放,兼容主流的开源技术与标准 可视化/强弱依赖/K8S演 练 智能化运维 业务与 IT 双向驱动
22.
23.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-23 10:41
浙ICP备14020137号-1 $Map of visitor$