蚂蚁故障应急全流程体系构建及应用实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 蚂蚁故障应急全流程体系构建 及应用实践 刘凯宁
2. 个人介绍 刘凯宁 ⚫ 蚂蚁集团 SRE 技术专家 ⚫ 熟悉全链路技术风险防控方案,深度参与过容量、资源、压测、应急、变 更、资金安全等领域的业务布防和能力建设 ⚫ 多次参与公司级超大型活动的稳定性保障,承担过大促保障队长、全链路 压测负责人、全链路资源容量负责人、全链路资金安全保障负责人等角色 Fix the Problem,Not the Blame wechat : mengqing-albert dingding :liukaining2019
3. 稳定性灵魂三问 ◼线上故障到底是什么? ◼谁应该为线上稳定性负责? ◼如何评价应急到底做的好不好?
4.
5. 目录 01 03 蚂蚁故障体系介绍 一个线上故障的全生命周期 02 蚂蚁应急体系介绍 04 AI 助力,未来已来
6. 01 蚂蚁故障体系介绍
7. 蚂蚁故障体系_故障定义 在日常运营中,无论什么原因导致我们服务中断、服务品质下降或用户服务体验下降 的现象,称为故障,但不包括用户方环境或自身操作引起的问题 ⚫ 用户服务体验下降:故障的核心要关注用户感受,可通过客诉舆情获知用户投诉,也可以通过监控渠道主动推知用户端的使用情况。 ⚫ 服务中断、服务品质下降:即使没有用户投诉,没有多少用户使用,只要是蚂蚁集团提供的服务出了问题,都算故障。 ⚫ 无论什么原因:无论是蚂蚁集团自身原因,还是第三方如供应商、运营商,或者蚂蚁集团调用了别人的服务出了问题,影响到用户,都是故障 ⚫ 不包括的情况:用户方环境(没有联网等)或者自身操作引起 短时间内有多位用户拨打 95188 支付宝客服热线反馈 某页面无法打开 是故障 某次开发迭代不小心引入问 题代码,导致某应用的异步 消息积压,无法正常消费 是故障 某运营商网络抖动,导致某 日支付宝交易付款成功率同 比昨日下跌 5% 以上 是故障 用户反馈错过参加某次定时 秒杀活动,导致没有抢到心 仪的某联名款皮肤盲盒 不是故障
8. 蚂蚁故障体系_故障等级 故障等级是一套事先约定好的衡量故障影响度的标尺,数字越小,级别越高 ⚫ 故障影响度涵盖哪些方面? 客诉量 资损金额 受影响用户数 数据错误量 故障场景定义 ⚫ 如何使用? 事 前 N M 业务 开发质量 业务稳定性 接口人 SRE 业务 铁三角 ⚫ 如何保鲜? 一般是每半年由 GOC 同学发起进行统一 review,不同业务逐次进行故障场景及等级 修订,定稿后邮件公示 P2 事 作为标准,评价已经发生的故障等级,对影 响多个产品线的故障,采用“就高原则”进行 后 最终定级 ⚫ 谁来定义? 定 期 K J P1 P2 P3 资损金额(理论): 针对明确的业务故障场景,需要 100% 监控 覆盖,并接入 GOC 724 盯屏,及时发现异 常触发应急止血 GOC 服务成本(客诉量): P4 P5 随 时 有新业务或系统架构重大调整时,各业务可 以按需随时拉起 review,定稿后邮件公示 受影响用户量: P4 P5 K J 数据错误量: P4 J K P1 M N M P1 P2 P3 影响数量:J < K < M < N P1 P2 P3 M N 故障级别:P4 < P3 < P2 < P1
9. 蚂蚁故障体系_故障序列 故障序列是一套根据故障根因及实际影响对故障进行分类的方式 T P ⚫ ⚫ ⚫ ⚫ ⚫ 技术主要责任 有实际业务影响 计入故障 Quota GOC 复盘 指标纳入能力考察 相关 指标 ⚫ ⚫ ⚫ ⚫ ⚫ 试运行期不区分责任 有实际业务影响 不计入故障 Quota GOC 复盘 指标纳入能力考察 1-5-10-30 ⚫ ⚫ ⚫ ⚫ ⚫ 蚂蚁外部责任 有实际业务影响 不计入故障 Quota GOC 按需复盘 观察指标不纳入考察 监控发现率 C S W ⚫ ⚫ ⚫ ⚫ ⚫ 技术非主要责任 有实际业务影响 不计入故障 Quota GOC 按需复盘 指标纳入能力考察 根因定位能力 ⚫ ⚫ ⚫ ⚫ ⚫ 技术非主要责任 无实际业务影响 不计入故障 Quota GOC 不复盘 不对指标有要求 Action完结率
10. 蚂蚁故障体系_GOC 故障点 GOC 场景:用于定义明确关键的服务、功能、接口、结果点,以及评价其产生异常后的影响情况 登录关键功能 免密登录 账密登录 P5 成功量下跌 5% 以上且影 响时长持续 5 分钟以上 成功率下跌 5% 以上且影 响时长持续 5 分钟以上 P4 成功量下跌 5% 以上且影 响时长持续 15 分钟以上 成功率下跌 5% 以上且影 响时长持续 15 分钟以上 P3 成功量下跌 20% 以上且影 响时长持续 10 分钟以上 成功率下跌 20% 以上且影 响时长持续 10 分钟以上 P2 成功量下跌 20% 以上且影 响时长持续 15 分钟以上 成功率下跌 20% 以上且影 响时长持续 15 分钟以上 P1 成功量下跌 30% 以上且影 响时长持续 20 分钟以上 成功率下跌 30% 以上且影 响时长持续 20 分钟以上 此处举例,不代表真实场景,数字仅供参考
11. 蚂蚁故障体系_GOC 场景驱动业务稳定性建设 懂业务 有成长 能应急 SRE
12. 蚂蚁故障体系_故障处理流程
13. 蚂蚁故障体系_技术风险管理平台(TRM)介绍 服务 客户 支付宝 财富保险 产品 形态 个人工作台 风 险 场 景 故障管理 功 能 模 块 蚂蚁国际 大安全 数字科技 系统管理工作台 风险运营工作台 风险团队工作台 OB、语雀 风险事件管理 风险治理 运维风险审计 公告管理 GOC场景定义 故障复盘 风险事件分析 风险项扫描 审计规则管理 公告审批 故障应急协同 改进措施跟进 改进措施跟进 风险项处理 审计事件跟进 公告发送 场 景 管 理 风 险 治 理 生命周期管理 在线审核公示 丰富度升级 布防水位管控 定义合理跟踪 自动场景演练 风险扫描接入 风险项通知 风险项处理 风险统计分析 应 急 处 理 审 计 功 能 多站点融合盯屏 等级辅助判断 自动化通告 应急值班管理 事件自动关联 应急托管接入 审计规则制定 审计规则执行 审计事件分析 审计结果跟进 复 盘 改 进 公 告 功 能 团队协同复盘 标准事件接入 自动化分析复盘 措施辅助跟进 自动验收改进项 改进措施分发 公告录入 公告审批及加签 公告权限管理 公告触达率分析
14. 蚂蚁故障体系_故障数据运营机制 指标驱动 数字化运营 结果 指标 重大 故障数 故障数 故障监控 发现率 故障30分 钟恢复率 过程 指标 1-5-10 符合度 故障 密度 故障Action 完结率 GOC 场景数 强化心智 文化运营 奖惩 文化 技术风险定期评奖 新人培训 (课程、考试) 生产故障处罚条例 日常宣推 (推送、盖楼) 制度 组织 故障管理制度 应急管理制度 变更管理制度 稳定性等级保障制度 全局稳定性小组 全站应急值班长 技术风险运营小组 各业务稳定性虚拟组织
15. 02 蚂蚁应急体系介绍
16. 蚂蚁应急体系_应急技术演进历史 海豹突击队 “0号”应急项目 应急值班长体系 应急体系升级 2017 2020 2024 古早期 依赖应急专家 工具发展期 沉淀平台能力 ➢ 服务台应急中手动计算故障等 级,手动建群、拉人 ➢ 支付业务中心化应急流程,自动 计算影响等级进行GOC故障快反 ➢ 各BU聚焦系统级告警(性能 /Error) ➢ 热线/在线客诉故障打通 ➢ 凭借运维专家和系统Owner经验 进行排障/定位 ➢ 机房容灾能力建设 ➢ 按BU维度各自建立稳定性小组, 各自构建应急体系 ➢ 定位/恢复、自愈能力初步构建 ➢ 无准备容灾建设 体系成熟期 统一应急体系 迭代升级期 适配环境变化 ➢ 应急值班长体系构建 ➢ 应急调度能力演进 ➢ 跨系统联动应急产品,形成全站 统一的1-5-10应急技术体系 ➢ 端智能应急能力建设 ➢ 客诉舆情能力建设 ➢ tracer、根因标定定位能力建设 ➢ 智能快恢能力建设 ➢ 客户动线/端到端定位能力建设 ➢ 基础应急 benchmark
17. 蚂蚁应急体系_应急角色介绍 全站应急值班长 ⚫ 负责全站故障应急指挥 ⚫ 负责各部门之间的应急协同 ⚫ 负责评估全站应急流程中暴露出 的风险,并提炼风险应对方案 ⚫ 负责本部门的风险场景识别、监控覆 盖、应急快恢、应急演练等事项 ⚫ 负责本部门故障应急指挥 ⚫ 负责本部门故障的应急协同 XX 一级部门应急小组 XX 一级部门应急小组 部门应急值班长 部门应急值班长 部门业务稳定性一号位 部门业务稳定性一号位 部门开发、质量、SRE ⚫ 负责本业务的风险场景识别、监控覆 盖、应急快恢能力建设、应急人员培 养、风险意识培训 ⚫ 负责本业务的故障跟进及处理 部门开发、质量、SRE ⚫ 负责本业务的风险场景识别、监控覆 盖、应急快恢等事项 ⚫ 负责本业务的故障应急指挥、应急协 调调度、应急止血、故障影响消除、 后续 Action 跟进 部门 GOC ⚫ 负责本部门的异常信息确认、故障通 告、应急启动、应急各角色人员协同、 应急进展同步、应急过程记录 ⚫ 负责本部门的故障复盘组织、后续 Action 分发和进展跟踪 部门 GOC
18. 蚂蚁应急体系_应急值班长机制 2019 蚂蚁全局稳定性小组成立 2020 首次发布应急值班长制度 2021 2021年后 建立考试制度,持证上岗 按年度换届、稳定运行 背景 为了鼓励和培养蚂蚁技术同学具备全面的应急止血、组织能力,蚂蚁全局稳定性小组特设立应急值班长机制。 由小组成员挑选出对业务有一定了解,有组织力、决策力,且已经过3次以上符合预期的应急处置(包括线上的 真实问题和演练问题)的同学,授予蚂蚁应急值班长称号。 选拔机制 应急止血 • 全站应急值班长 • 由全局稳定性小组组长、副组长选拔组建而成 • 一年为一个任期 • 人数控制在4-6名 • BU应急值班长 • 由研发、质量或SRE同学担任,由全局稳定性小组组长、副组长通过邮件审批通过为主; • 一年为一个任期,一次替换不能超过现有50%的人员,保证一定的新老交替; • 每个BU应急值班长人数约占本BU人数的1%,技术人员比较多的BU可以设置两级值班长结构; 激励机制 • 授权上岗:蚂蚁集团CTO签名授牌 • 内外头衔:内网增加“蚂蚁应急值班长”头衔 • 公开表彰:在实际应急过程中发挥重要作用的同学进行公开表彰 应急组织 蚂蚁应急值班长 专业度 认同感 责任心
19. 蚂蚁应急体系_应急流程
20. 蚂蚁应急体系_应急快恢架构 <2mins 阶段 L3:自动异常 识别 用户体验 异常检测 <5mins 告警 响应 时效性、召回率 5分钟响应率、完结率 <20mins <30mins 定位 止血 止血时长 根因定位采纳率 端智能异常告警 业务层 业务预案快恢 L2:场景定义 L1:客诉兜底 GOC监控 GOC监控 GOC告警 客诉类告警 L1 通用 7*24 GOC 根因定位 兜底防抖 变更定位 L2 前端 SRE 客户端 L3 用户业务 BU应急值班长 异常定位 应 急 攻 防 验 收 服务端 运营变更 基础运维层 (集群) 随时可容灾 基础应急SLA 基础设施层 (单机) 基础设施自愈
21. 蚂蚁应急体系_ 端智能异常告警
22. 蚂蚁应急体系_ 基础应急 SLA 通过定义应急操作的能力指标 Benchmark,定期验证达标情况,驱动应急能力演进,助力应急时效提升 应急功能 Benchmark 定义、验收、改进 业务应用 应急能力 应急扩容 物理机房 应急重启 应急回滚 (其他非应急功能) 统一运维平台 应急资源池 XX 站点标准应用 主站标准应用 主站线上应急资源池 机房 A 灰度应急资源池 机房 B XX应急 资源池 机房 C
23. 蚂蚁应急体系_应急分析与评价 ➢ SRE 为线上应急效果负责 ➢ 线上故障、事件发生后, SRE 需要在 48 小时之内 完成应急复盘 ➢ 应急复盘主要关注应急发 现、应急定位、应急止血、 应急 Action 跟进等事项
24. 蚂蚁应急体系_应急止血方式 执行业务预案 基础运维操作 容灾切流 变更回滚 其他止血操作 ➢业务整体降级 ➢应用扩容 ➢机房级别切流 ➢服务端迭代回滚 ➢一键停止压测 ➢单功能点降级 ➢应用重启 ➢链路切流 ➢前端迭代回滚 ➢一键停止自愈 ➢动画效果降级 ➢应用关流|替换|下线 ➢单应用切流 ➢客户端开关回滚 ➢查杀数据/AI任务 ➢异步降级 ➢日志清理 ➢基础设施切流(DB、网络、 ➢客户端版本回滚 ➢查杀悬挂事务 ➢风控咨询降级 ➢接口限流/应用限流 ➢DRM回滚 ➢数据预热 ➢链路弱依赖降级 ➢SQL限流 ➢运营配置回滚 ➢修改业务配置 ➢调整任务速率 ➢DB切主 ➢DB变更回滚 ➢数据订正 ➢VIP变更回滚 ➢数据迁移 AIOS等) ➢效果类切流 ➢日志降级 涉及平台 涉及平台 涉及平台 涉及平台 涉及平台 ➢ 预案平台 ➢ PaaS运维平台 ➢ 流量调度平台 ➢ 后端研发迭代 ➢ 压测平台 ➢ 分布式配置平台 ➢ 限流平台 ➢ 容灾平台 ➢ 前端研发迭代 ➢ 应急平台 ➢ 客户端发布平台 ➢ 预热平台 ➢ 运营配置平台 ➢ 数据库平台 ➢ 定时任务
25. 03 一个线上故障的全生命周期
26. 一个线上故障的全生命周期 GOC 故障定义 指标度量 故障发生及处理
27. 一个线上故障的全生命周期 故障信息收集 故障复盘 故障Action
28. 04 AI 助力,未来已来
29. SRE-Agent 技术架构 极简模式 解决30% + 高阶模式 解决60% AgentPro AgentBasic 复盘文档 数据工程 + 动线数据 LLM信 息推荐 LLM信 息抽取 text2graph 评测管理 解决10% AgentBench 平台自 动评测 监控查询记录 变更操作记录 日志查询记录 xx动线记录 评测数据 OpsGPT- RAG(GA) AgentRelease OpsGPT- Tool(GA) OpsGPT- Tool(Beta) OpsGPT- EKG(Release) R A G T o o l C o d e Web页发布 评测数据 团队文档转换 团队工具注册 Release 接口触 发评测 OpsGPT- EKG(GA) OpsGPT- RAG(Beta) 预置 Tool(Alpha) SRE智能体 SRE团队智能体 OpsGPT- EKG(Beta) 预置 RAG(Alpha) 用户自 主评测 应急经验沉淀 预置 EKG(Alpha) Data proxy = 钉钉发布 OpenAPI发布 评测数据
30. SRE-Agent 页面演示
31. SRE-Agent 构建演示
32. SRE-Agent 使用演示
33.
34. Fix the Problem,Not the Blame It doesn’t really matter whether the bug is your fault or someone else’s , it is still your problem, and it still needs to be fixed. THANKS Pragmatic Programmer: From Journeymen to Master

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-10 04:10
浙ICP备14020137号-1 $mapa de visitantes$