阿里巴巴GOC稳定性保障介绍

1. 阿里巴巴GOC稳定性保障介绍

2. 01 关于阿里巴巴GOC团队目录 02 阿里巴巴稳定性保障体系概览 03 保障实践：1-5-10故障快恢 04 保障实践：潜在风险发现及消除 05 技术支持职业展望

3. 关于我 2009年至2017年，就职于微软上海全球技术支持中心，从事技术支持及服务交付工作。 2017年至今，就职于阿里巴巴全球运行指挥中心（GOC），负责阿里和蚂蚁集团稳定性保障相关工作。 01

4. 01 关于阿里巴巴GOC团队 GOC团队定位、历史及GOC技术支持职责

5. GOC团队历史监控和业务支持团队转型&升级 • 体系化监控 • 全业务线支持新形势下的GOC升级 • 云上稳定性保障 • 智能风险预警 • 故障快恢能力建设 • 常态化生产突袭各团队监控中心、业务支持团队先后成立 • 自研系统 • 多个监控系统并存 2015年 2018年 2020年 2014年 2012年纳入阿里巴巴安全生产委员会 • 亿级监控告警 • 智能基线落地 • 智能定位 • 开启自动化应急尝试 2009年 2004年第一个监控中心团队成立 • 采用开源监控系统 • 手工监控融合各监控与业务支持团队 • 监控量级超千万 • 自研GOC系统 GOC成立 • 覆盖实时监控、故障通告、应急协同、故障复盘等管理工作 • 优化落地的完整生命周期管控 30,000 +

6. GOC团队定位调度决策中心防止能预见的问题快速恢复不能预防的问题风险控制中心 Global Operations Center 应急响应不再重复已发生的问题信息情报中心 30,000 + 中心

7. GOC团队职责服务阿里巴巴各条业务线中台能力基础产品工单管理多维智能监控故障管理活动保障应急协同能力风险预判能力变更管控能力数据分析能力故障平台智能监控策略平台根因预判平台变更风控平台工单平台报警发送中心活动平台数据分析平台 30,000 +

8. 02 阿里巴巴稳定性保障体系高度复杂业务的稳定性保障实践

9. 挑战：业务复杂性X规模化运维X全面上云基础设施安全阿里健康阿里通信淘宝阿里妈妈阿里云天猫搜索速卖通飞猪 ICBU 供应链闲鱼支付宝菜鸟饿了么盒马鲜生 1688 同城零售优酷钉钉业务平台 …… 30,000 +

10. 阿里巴巴稳定性保障体系全貌数据运营稳定性保障领域全局即时指挥故障分突袭演练稳定性分安全验收故障预防域资金安全域故障应急域攻防演练域活动保障域战役度量大促指挥监控治理资源验收风险治理技术风险基础领域运维变更域 ………… 变更视图数据域研发流程域测试仿真域监控巡检域事件流程域应用运维基础设施运维组织-应用结构监控-风险数据迭代管理代码分支管理自动化测试灰度环境监控系统资金核对系统工单系统故障管理中间件运维数据运维工单-舆情数据变更-故障数据测试管理代码扫描灰度验证灰度压测巡检系统舆情平台事件管理流程审批标准化统一化产品化 …………

11. 保障体系特点1：事件驱动的分层管理模式各业务职海量监控报警（业务指标、系统指标、 • 一般问题处置核对）、用户来电、工单、社交舆情能团队工单及App反馈监控平台风险预警 GOC预警平台转换升级产研团队 • 劣化问题升级 &SRE&GOC 转换升级产研团队 • 故障应急协同线上故障 GOC故障平台 &SRE&GOC 安全&PR& 法务&GOC • 重大事件联动升级转换重大风险事件重大风险事件平台

12. 保障体系特点2：架构设计与流程管理相结合面向失败的架构设计机制+体制+法制的流程保障在高可用架构设计之处就应当考虑到各种失败场景，从流程机制保障的角度出发，制定工单、监控、预把面向失败当成系统设计的一部分：通过冗余设计避警、故障、应急、变更、演练、压测、度量、问责免单点故障，同城/异地多活架构保证极端情况下的等多维度的流程和规章制度，统一规范标准，形成服务连续，服务自我保护提升非预期内的存活能力，一套全生命周期的管理流程。为各种突发情况备好预案，针对大规模自动化运维设置合理的管控规则等。

13. 保障体系特点3：数字化、移动化、智能化结合钉钉IM及场景群功能，建设移动化运维保障平台 • 报警发送：钉钉/电话稳定性保障工作的过程及结果都有数字化度量 • 监控查看：钉钉小程序移动化 • 报警数据：个人及团队报警中心 • 定位能力：整合定位平台自动推送定位结果 • 恢复措施：预案推送，移动端一键执行 • 应急指标：应急SLA看板 • 稳定性建设：稳定性分 • 结果度量：故障分安全生产文化建设结合AIOPS实现故障自愈。 • 自助定位：故障定位平台建设数字化智能化 • 邀请排查：根据影响模块自动拉取值班人 • 故障自愈：部分场景实现无人工干预下的故障自愈

14. 03 保障实践：1-5-10故障快恢 1分钟发现，5分钟定位，10分钟恢复

15. 1-5-10能力图谱

16. 1-5-10快速定位

17. 1-5-10故障自愈建设机房容灾自愈自愈引擎调度容灾自愈切换人工确认执行 01 单机自愈宕机自动重启坏盘自动下线 master自动运维故障节点自动剔除容量自愈 02 04 接口自动限流 SQL限流自动扩容线程池参数自动调整 03 变更自愈应用变更定位监控指标摸排验证发布自助回滚

18. 1-5-10移动化应急实践启动建群人员调度初因定位快恢预案一键会议 SOP 应急作战室应急结束指标统计

19. 1-5-10实现的价值 1分钟发现 FY19 FY20 30分钟恢复率 FY19 FY20 提升2.5X FY21 5分钟定位 FY19 提升1.6X FY21 FY20 2小时恢复率 FY19 FY20 提升7.1X FY21 10分钟恢复率 FY19 提升1.3X FY21 FY20 平均故障时长 FY19 FY20 提升1.8X FY21 减少80% FY21

20. 04 保障实践：风险发现及消除防患于未然

21. 风险预警：背景风险池 & 故障池海恩法则海恩法则每一起严重事故的背后，必然有29次轻微事故和300 起未遂先兆以及1000起事故隐患。除了要重视处理每一起严重事故的背后，必然有29次轻微事故事故本身，还要及时对“事故征兆”和“事故苗头” 和300起未遂先兆以及1000起事故隐患。除了进行排查处理，以此防止类似问题的重复发生，及时要重视处理事故本身，还要及时对“事故征消除再次发生重大事故的隐患，把问题解决在萌芽状兆”和“事故苗头”进行排查处理，以此防止态。类似问题的重复发生，及时消除再次发生重大风险池事故的隐患，把问题解决在萌芽状态。故障水位基线故障池故障量风险量

22. 风险预警：实践风险来源业务监控分析 & 挖掘业务类舆情平台客服平台客户端监控资损类舆情类核对平台应用性能应用服务 IDC服务应用类报警内容影响业务趋势监控核对监控应用异常实时舆情量上下游依赖用户反馈案例基础环境数据分析处理可疑资损工单转交接手团队值班排查个人/团队视图结单钉钉群协同关闭提醒优化项推荐 SLA催办明细列表

23. 红蓝攻防：突袭突袭制定 1、理论建设历史故障分析突袭演练白皮书设施构建 4、突袭打击红军 2、方案验收演练注入能力演练环境蓝军流量构造 3、设施构建突袭演练平台监控研发故障应急结果度量 6、持续改进演练频率突袭达标率故障覆盖率 Action完成率突袭红黑榜 5、结果度量 GOC l l l l l l 标准：定义突袭标准，提升专业能力组织：设定目标和运转机制，组建蓝军团队基建：推进周边设施演进，降低演练门槛能力：开源&开放平台能力，激活业务创新效率：在线化演练流程和度量，数据驱动改进文化：沉淀常态和大型突袭玩法，营造演练文化

24. 05 技术支持职业展望面向未来，路在何方

25. Eliminating Toil -> 解决方案 v 业务赋能深度解决方案 v 技术能力深入理解提升业服务务技价值术技术支持 v 服务升级广度 v 统一服务界面 v 标准化 v 规模化

26. Thanks