阿里巴巴GOC稳定性保障介绍

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里巴巴GOC稳定性保障介绍
2. 01 关于阿里巴巴GOC团队 目录 02 阿里巴巴稳定性保障体系概览 03 保障实践:1-5-10故障快恢 04 保障实践:潜在风险发现及消除 05 技术支持职业展望
3. 关于我 2009年至2017年,就职于微软上海全球技术支持中心,从事技术支持及服务 交付工作。 2017年至今,就职于阿里巴巴全球运行指挥中心(GOC),负责阿里和蚂蚁 集团稳定性保障相关工作。 01
4. 01 关于阿里巴巴GOC团队 GOC团队定位、历史及GOC技术支持职责
5. GOC团队历史 监控和业务支持团队转型&升级 • 体系化监控 • 全业务线支持 新形势下的GOC升级 • 云上稳定性保障 • 智能风险预警 • 故障快恢能力建设 • 常态化生产突袭 各团队监控中心、业务支持团 队先后成立 • 自研系统 • 多个监控系统并存 2015年 2018年 2020年 2014年 2012年 纳入阿里巴巴安全生产委员会 • 亿级监控告警 • 智能基线落地 • 智能定位 • 开启自动化应急尝试 2009年 2004年 第一个监控中心团队成立 • 采用开源监控系统 • 手工监控 融合各监控与业务支持团队 • 监控量级超千万 • 自研GOC系统 GOC成立 • 覆盖实时监控、故障通告、应急协 同、故障复盘等管理工作 • 优化落地的完整生命周期管控 30,000 +
6. GOC团队定位 调度决策 中心 防止能预见的问题 快速恢复不能预防的问题 风险控制 中心 Global Operations Center 应急响应 不再重复已发生的问题 信息情报 中心 30,000 + 中心
7. GOC团队职责 服务阿 里巴巴 各条业 务线 中台 能力 基础 产品 工单管理 多维智能监控 故障管理 活动保障 应急协同能力 风险预判能力 变更管控能力 数据分析能力 故障平台 智能监控策略平台 根因预判平台 变更风控平台 工单平台 报警发送中心 活动平台 数据分析平台 30,000 +
8. 02 阿里巴巴稳定性保障体系 高度复杂业务的稳定性保障实践
9. 挑战:业务复杂性X规模化运维X全面上云 基础设施 安全 阿里健康 阿里通信 淘宝 阿里妈妈 阿里云 天猫 搜索 速卖通 飞猪 ICBU 供应链 闲鱼 支付宝 菜鸟 饿了么 盒马鲜生 1688 同城零售 优酷 钉钉 业务平台 …… 30,000 +
10. 阿里巴巴稳定性保障体系全貌 数据运营 稳定性保障领域 全局即时指挥 故障分 突袭演练 稳定性分 安全验收 故障预防域 资金安全域 故障应急域 攻防演练域 活动保障域 战役度量 大促指挥 监控治理 资源验收 风险治理 技术风险基础领域 运维变更域 ………… 变更视图 数据域 研发流程域 测试仿真域 监控巡检域 事件流程域 应用运维 基础设施 运维 组织-应用 结构 监控-风险 数据 迭代 管理 代码分支 管理 自动化 测试 灰度 环境 监控 系统 资金核对 系统 工单 系统 故障 管理 中间件 运维 数据 运维 工单-舆情 数据 变更-故障 数据 测试 管理 代码 扫描 灰度 验证 灰度 压测 巡检 系统 舆情 平台 事件 管理 流程 审批 标准化 统一化 产品化 …………
11. 保障体系特点1:事件驱动的分层管理模式 各业务职 海量监控报警(业务指标、系统指标、 • 一般问题处置 核对)、用户来电、工单、社交舆情 能团队 工单 及App反馈 监控平台 风险预警 GOC预警平台 转换 升级 产研团队 • 劣化问题升级 &SRE&GOC 转换 升级 产研团队 • 故障应急协同 线上故障 GOC故障平台 &SRE&GOC 安全&PR& 法务&GOC • 重大事件联动 升级 转换 重大风险 事件 重大风险事件平台
12. 保障体系特点2:架构设计与流程管理相结合 面向失败的架构设计 机制+体制+法制的流程保障 在高可用架构设计之处就应当考虑到各种失败场景, 从流程机制保障的角度出发,制定工单、监控、预 把面向失败当成系统设计的一部分:通过冗余设计避 警、故障、应急、变更、演练、压测、度量、问责 免单点故障,同城/异地多活架构保证极端情况下的 等多维度的流程和规章制度,统一规范标准,形成 服务连续,服务自我保护提升非预期内的存活能力, 一套全生命周期的管理流程。 为各种突发情况备好预案,针对大规模自动化运维设 置合理的管控规则等。
13. 保障体系特点3:数字化、移动化、智能化 结合钉钉IM及场景群功能,建设移动化运维保障平台 • 报警发送:钉钉/电话 稳定性保障工作的过程及结果都有数字化度量 • 监控查看:钉钉小程序 移动化 • 报警数据:个人及团队报警中心 • 定位能力:整合定位平台自动推送定位结果 • 恢复措施:预案推送,移动端一键执行 • 应急指标:应急SLA看板 • 稳定性建设:稳定性分 • 结果度量:故障分 安全生产 文化建设 结合AIOPS实现故障自愈。 • 自助定位:故障定位平台建设 数字化 智能化 • 邀请排查:根据影响模块自动拉取值班人 • 故障自愈:部分场景实现无人工干预下的 故障自愈
14. 03 保障实践:1-5-10故障快恢 1分钟发现,5分钟定位,10分钟恢复
15. 1-5-10能力图谱
16. 1-5-10快速定位
17. 1-5-10故障自愈建设 机房容灾自愈 自愈引擎调度 容灾自愈切换 人工确认执行 01 单机自愈 宕机自动重启 坏盘自动下线 master自动运维 故障节点自动剔除 容量自愈 02 04 接口自动限流 SQL限流 自动扩容 线程池参数自动调整 03 变更自愈 应用变更定位 监控指标摸排验证 发布自助回滚
18. 1-5-10移动化应急实践 启动建群 人员调度 初因定位 快恢预案 一键会议 SOP 应急作战室 应急结束 指标统计
19. 1-5-10实现的价值 1分钟发现 FY19 FY20 30分钟恢复率 FY19 FY20 提升2.5X FY21 5分钟定位 FY19 提升1.6X FY21 FY20 2小时恢复率 FY19 FY20 提升7.1X FY21 10分钟恢复率 FY19 提升1.3X FY21 FY20 平均故障时长 FY19 FY20 提升1.8X FY21 减少80% FY21
20. 04 保障实践:风险发现及消除 防患于未然
21. 风险预警:背景 风险池 & 故障池 海恩法则 海恩法则 每一起严重事故的背后,必然有29次轻微事故和300 起未遂先兆以及1000起事故隐患。除了要重视处理 每一起严重事故的背后,必然有29次轻微事故 事故本身,还要及时对“事故征兆”和“事故苗头” 和300起未遂先兆以及1000起事故隐患。除了 进行排查处理,以此防止类似问题的重复发生,及时 要重视处理事故本身,还要及时对“事故征 消除再次发生重大事故的隐患,把问题解决在萌芽状 兆”和“事故苗头”进行排查处理,以此防止 态。 类似问题的重复发生,及时消除再次发生重大 风险池 事故的隐患,把问题解决在萌芽状态。 故障水位 基线 故障池 故障量 风险量
22. 风险预警:实践 风险来源 业务监控 分析 & 挖掘 业务类 舆情平台 客服平台 客户端监控 资损类 舆情类 核对平台 应用性能 应用服务 IDC服务 应用类 报警内容 影响业务 趋势监控 核对监控 应用异常 实时舆情量 上下游依赖 用户反馈案例 基础环境 数据分析 处理 可疑资损工单 转交 接手 团队值班 排查 个人/团队视图 结单 钉钉群协同 关闭提醒 优化项推荐 SLA催办 明细列表
23. 红蓝攻防:突袭 突袭制定 1、理论建设 历史故障分析 突袭演练白皮书 设施构建 4、突袭打击 红军 2、方案验收 演练注入能力 演练环境 蓝军 流量构造 3、设施构建 突袭演练平台 监控 研发 故障应急 结果度量 6、持续改进 演练频率 突袭达标率 故障覆盖率 Action完成率 突袭红黑榜 5、结果度量 GOC l l l l l l 标准:定义突袭标准,提升专业能力 组织:设定目标和运转机制,组建蓝军团队 基建:推进周边设施演进,降低演练门槛 能力:开源&开放平台能力,激活业务创新 效率:在线化演练流程和度量,数据驱动改进 文化:沉淀常态和大型突袭玩法,营造演练文化
24. 05 技术支持职业展望 面向未来,路在何方
25. Eliminating Toil -> 解决方案 v 业务赋能 深 度 解决 方案 v 技术能力 深入 理解 提升 业 服务 务技 价值 术 技术 支持 v 服务升级 广度 v 统一服务界面 v 标准化 v 规模化
26. Thanks

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-28 18:48
浙ICP备14020137号-1 $访客地图$