阿里巴巴GOC稳定性保障介绍
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里巴巴GOC稳定性保障介绍
2. 01 关于阿里巴巴GOC团队
目录
02 阿里巴巴稳定性保障体系概览
03 保障实践:1-5-10故障快恢
04 保障实践:潜在风险发现及消除
05 技术支持职业展望
3. 关于我
2009年至2017年,就职于微软上海全球技术支持中心,从事技术支持及服务
交付工作。
2017年至今,就职于阿里巴巴全球运行指挥中心(GOC),负责阿里和蚂蚁
集团稳定性保障相关工作。
01
4. 01 关于阿里巴巴GOC团队
GOC团队定位、历史及GOC技术支持职责
5. GOC团队历史
监控和业务支持团队转型&升级
• 体系化监控
• 全业务线支持
新形势下的GOC升级
• 云上稳定性保障
• 智能风险预警
• 故障快恢能力建设
• 常态化生产突袭
各团队监控中心、业务支持团
队先后成立
• 自研系统
• 多个监控系统并存
2015年
2018年
2020年
2014年
2012年
纳入阿里巴巴安全生产委员会
• 亿级监控告警
• 智能基线落地
• 智能定位
• 开启自动化应急尝试
2009年
2004年
第一个监控中心团队成立
• 采用开源监控系统
• 手工监控
融合各监控与业务支持团队
• 监控量级超千万
• 自研GOC系统
GOC成立
• 覆盖实时监控、故障通告、应急协
同、故障复盘等管理工作
• 优化落地的完整生命周期管控
30,000 +
6. GOC团队定位
调度决策
中心
防止能预见的问题
快速恢复不能预防的问题
风险控制
中心
Global
Operations
Center
应急响应
不再重复已发生的问题
信息情报
中心
30,000 +
中心
7. GOC团队职责
服务阿
里巴巴
各条业
务线
中台
能力
基础
产品
工单管理 多维智能监控 故障管理 活动保障
应急协同能力 风险预判能力 变更管控能力 数据分析能力
故障平台 智能监控策略平台 根因预判平台 变更风控平台
工单平台 报警发送中心 活动平台 数据分析平台
30,000 +
8. 02 阿里巴巴稳定性保障体系
高度复杂业务的稳定性保障实践
9. 挑战:业务复杂性X规模化运维X全面上云
基础设施
安全
阿里健康
阿里通信
淘宝
阿里妈妈
阿里云
天猫
搜索
速卖通
飞猪
ICBU
供应链
闲鱼
支付宝
菜鸟
饿了么
盒马鲜生
1688
同城零售
优酷
钉钉
业务平台
……
30,000 +
10. 阿里巴巴稳定性保障体系全貌
数据运营
稳定性保障领域
全局即时指挥
故障分 突袭演练
稳定性分 安全验收
故障预防域
资金安全域
故障应急域
攻防演练域
活动保障域
战役度量 大促指挥
监控治理 资源验收
风险治理
技术风险基础领域
运维变更域
…………
变更视图
数据域
研发流程域
测试仿真域
监控巡检域
事件流程域
应用运维 基础设施
运维 组织-应用
结构 监控-风险
数据 迭代
管理 代码分支
管理 自动化
测试 灰度
环境 监控
系统 资金核对
系统 工单
系统 故障
管理
中间件
运维 数据
运维 工单-舆情
数据 变更-故障
数据 测试
管理 代码
扫描 灰度
验证 灰度
压测 巡检
系统 舆情
平台 事件
管理 流程
审批
标准化
统一化
产品化
…………
11. 保障体系特点1:事件驱动的分层管理模式
各业务职
海量监控报警(业务指标、系统指标、
• 一般问题处置
核对)、用户来电、工单、社交舆情
能团队
工单
及App反馈 监控平台
风险预警 GOC预警平台
转换
升级
产研团队
• 劣化问题升级
&SRE&GOC
转换
升级
产研团队
• 故障应急协同
线上故障
GOC故障平台
&SRE&GOC
安全&PR&
法务&GOC
• 重大事件联动
升级
转换
重大风险
事件
重大风险事件平台
12. 保障体系特点2:架构设计与流程管理相结合
面向失败的架构设计
机制+体制+法制的流程保障
在高可用架构设计之处就应当考虑到各种失败场景, 从流程机制保障的角度出发,制定工单、监控、预
把面向失败当成系统设计的一部分:通过冗余设计避 警、故障、应急、变更、演练、压测、度量、问责
免单点故障,同城/异地多活架构保证极端情况下的 等多维度的流程和规章制度,统一规范标准,形成
服务连续,服务自我保护提升非预期内的存活能力, 一套全生命周期的管理流程。
为各种突发情况备好预案,针对大规模自动化运维设
置合理的管控规则等。
13. 保障体系特点3:数字化、移动化、智能化
结合钉钉IM及场景群功能,建设移动化运维保障平台
• 报警发送:钉钉/电话
稳定性保障工作的过程及结果都有数字化度量
• 监控查看:钉钉小程序
移动化
• 报警数据:个人及团队报警中心
• 定位能力:整合定位平台自动推送定位结果
• 恢复措施:预案推送,移动端一键执行
• 应急指标:应急SLA看板
• 稳定性建设:稳定性分
• 结果度量:故障分
安全生产
文化建设
结合AIOPS实现故障自愈。
• 自助定位:故障定位平台建设
数字化
智能化
• 邀请排查:根据影响模块自动拉取值班人
• 故障自愈:部分场景实现无人工干预下的
故障自愈
14. 03 保障实践:1-5-10故障快恢
1分钟发现,5分钟定位,10分钟恢复
15. 1-5-10能力图谱
16. 1-5-10快速定位
17. 1-5-10故障自愈建设
机房容灾自愈
自愈引擎调度
容灾自愈切换
人工确认执行
01
单机自愈
宕机自动重启
坏盘自动下线
master自动运维
故障节点自动剔除
容量自愈
02
04
接口自动限流
SQL限流
自动扩容
线程池参数自动调整
03
变更自愈
应用变更定位
监控指标摸排验证
发布自助回滚
18. 1-5-10移动化应急实践
启动建群
人员调度
初因定位
快恢预案
一键会议
SOP
应急作战室
应急结束
指标统计
19. 1-5-10实现的价值
1分钟发现
FY19
FY20
30分钟恢复率
FY19
FY20
提升2.5X
FY21
5分钟定位
FY19
提升1.6X
FY21
FY20
2小时恢复率
FY19
FY20
提升7.1X
FY21
10分钟恢复率
FY19
提升1.3X
FY21
FY20
平均故障时长
FY19
FY20
提升1.8X
FY21
减少80%
FY21
20. 04 保障实践:风险发现及消除
防患于未然
21. 风险预警:背景
风险池 & 故障池
海恩法则
海恩法则
每一起严重事故的背后,必然有29次轻微事故和300
起未遂先兆以及1000起事故隐患。除了要重视处理
每一起严重事故的背后,必然有29次轻微事故
事故本身,还要及时对“事故征兆”和“事故苗头”
和300起未遂先兆以及1000起事故隐患。除了
进行排查处理,以此防止类似问题的重复发生,及时
要重视处理事故本身,还要及时对“事故征
消除再次发生重大事故的隐患,把问题解决在萌芽状
兆”和“事故苗头”进行排查处理,以此防止
态。
类似问题的重复发生,及时消除再次发生重大
风险池
事故的隐患,把问题解决在萌芽状态。
故障水位
基线
故障池
故障量
风险量
22. 风险预警:实践
风险来源
业务监控
分析 & 挖掘
业务类
舆情平台
客服平台
客户端监控
资损类
舆情类
核对平台
应用性能
应用服务
IDC服务
应用类
报警内容 影响业务
趋势监控 核对监控
应用异常 实时舆情量
上下游依赖 用户反馈案例
基础环境
数据分析
处理
可疑资损工单
转交
接手
团队值班
排查
个人/团队视图
结单
钉钉群协同
关闭提醒
优化项推荐
SLA催办
明细列表
23. 红蓝攻防:突袭
突袭制定
1、理论建设
历史故障分析
突袭演练白皮书
设施构建
4、突袭打击
红军
2、方案验收
演练注入能力
演练环境
蓝军
流量构造
3、设施构建
突袭演练平台
监控
研发
故障应急
结果度量
6、持续改进
演练频率
突袭达标率
故障覆盖率
Action完成率
突袭红黑榜
5、结果度量
GOC
l
l
l
l
l
l
标准:定义突袭标准,提升专业能力
组织:设定目标和运转机制,组建蓝军团队
基建:推进周边设施演进,降低演练门槛
能力:开源&开放平台能力,激活业务创新
效率:在线化演练流程和度量,数据驱动改进
文化:沉淀常态和大型突袭玩法,营造演练文化
24. 05 技术支持职业展望
面向未来,路在何方
25. Eliminating Toil -> 解决方案
v 业务赋能
深
度
解决
方案
v 技术能力
深入
理解
提升 业
服务 务技
价值 术
技术
支持
v 服务升级
广度
v 统一服务界面
v 标准化
v 规模化
26. Thanks