问题定义:清晰的描述问题现象、影响,其中影响要尽量量化。例如xx时xx分开始,xx服务异常,成功率从99%下跌到90%。
临时解决:基于预案的临时解决方案和实施结果,包括符合条件的预案执行,或者应用发布过程中出现的异常后立即回滚。
分析问题原因:结合已知因素,找到问题的根本原因。
制定解决方案。
实施解决方案。
标准化解决方案:将解决方案标准化,举一反三,避免同类问题继续发生。
指挥员:负责组织和协调故障快速恢复、故障群里通报相关进展。
通讯员:负责收集、记录关键信息,并在故障群等渠道跟相关团队沟通。
快恢负责人:根据故障现象、监控大盘,决策并执行预案。
问题诊断负责人:定位故障根本原因,当快恢不起作用的话,该角色至关重要。
第一接警人:默认第一个收到告警、投诉反馈的技术人员作为指挥员。第一接警人判断是否能够指挥,或者是否有自己熟悉且充分演练的预案可用,如果可以则立即恢复服务,否则联系专职指挥员接手。在专职指挥员接手之前,第一接警人就是默认的指挥员。
专职指挥员:团队 Leader 和稳定性负责人是大多数风险的最佳指挥员,当应急团队建立联系后,指挥员可以交由 TL 或团队内的稳定性负责人。
各级TL:当故障时长和等级持续上升后,根据实际情况会上升,由更高层级 TL 接掌指挥员角色,以协调更多资源加入。
确认问题:确定该次突发事件的现象、影响。
确定角色:确定参与该次事件处理的关键角色,包括通讯员、快恢负责人、问题诊断负责人。
向上沟通:让组织中关键角色知晓该问题,这样在需要时候,可以更快的调动更多人员和资源参与进来。
协调:协助快恢负责人和问题诊断负责人解决问题,在信息、领域专家等资源上给予支援。
启动:确定人员,并通过视频会议、故障群等方式建立起应急小组。
前期:紧盯快恢负责人进展,优先落地快恢,而不是分析根本原因。当快恢不生效后,也要继续探索可能的快恢手段,例如回滚近期的变更等操作。过往的故障时长没有满足1-5-10的案例中,大多数情况下都是指挥员在分析问题根本原因,错失了快恢的最佳时机。
中期:尝试大量手段都无法恢复服务的话,重心逐渐转移到问题诊断负责人这里,找到根本原因。通常进入到这个阶段故障还没恢复的话,就是大故障了,1-5-10基本上是无法达标的。
后期:组织团队继续观察,确认不会问题再复现。组织善后和复盘等工作。
专职通讯员:在团队内有一定稳定性认知,然后通常又不是快恢负责人和问题诊断负责人第一人选的那个同学。
其他不参与问题诊断和快恢的团队成员。
持续确认问题和通报:随着时间推移,问题的现象、影响面也在动态变化,需要定期通报(故障群、电话会议等渠道),前期要做到5分钟换一次通报,随着时间推移,后期可以改成15分钟、30分钟等间隔。
信息收集:按照标准模版,为该问题建立一个统一的文档,把文档链接放到群公告、故障群中。并持续将收集的关键信息更新进去。方便后续加入到应急小组的同学快速了解上下文。
收集舆情:这一点跟信息收集有重叠,之所以特别强调出来,是因为该环节通常容易被忽略,技术同学容易陷入在技术指标中,对于舆情缺乏关注。
对外发声:联系客服负责人,与客服团队合作,安抚客户。
前期要快:快速收集关键信息,黄金10分钟内要做到每分钟有信息更新,并持续通报。
通报及时:好的信息通报是告知下次通报时间,例如xx问题yy正在处理中,目前情况是zzz,xx分钟后将进行下一次通报。如果有可靠和及时的通报,关注该问题的人只需持续留意信息通报即可,避免非专业的插手影响应急小组快速反应。
联系外部支援:涉及到外部依赖方的时候,例如OSS、MySQL等,通过指挥员、应用Owner等渠道知晓外部接口人的时候,及时组织外部接口人加入到应急小组中来,并向对方通报问题上下文。
应用Owner/核心骨干。
执行过该应用预案的团队成员:我们鼓励团队之间交叉执行预案,当应用Owner联系不上的时候,其他同学也可以通过预案来协助问题恢复。
执行快恢预案:根据问题现象,找到预案大盘,根据大盘上监控指标指引去执行相应的预案。
制定其他候选恢复方案:当已知快恢预案不生效时候,分析可能的变更等因素,通过回滚等方法尝试恢复。必要时候,让指挥员协调更多人进来支持。
以恢复服务为第一优先级,问题根因分析请交给问题诊断负责人。
既定预案不能快恢,也要继续探索其他可能的恢复手段。
应用Owner/骨干:了解相关代码的人最适合去做问题诊断。
领域专家:比如网络问题,可以从集团找到该领域专家协助参与进来。
根据收集的信息,找到问题根本原因。
向指挥员、通讯员提出要求,把外部支援邀请加入到应急小组中。
真实的故障场景。
红蓝对抗演习:与SRE联动,通过突袭方式,模拟一次故障。
常规报警升级:TL或者稳定性负责人随机抽取一个短信告警,人为将其升级为故障,进入故障应急响应流程。
2021阿里云峰会暨开发者大会
亲爱的开发者,阿里云开发者大会5月29就要在北京国家会议中心开幕啦!我们邀请了互联网大咖、技术大佬们和大家一起聊聊技术,聊聊开发者的未来…我们非常诚挚的邀请你参与这次大会。点击“阅读原文”即可报名,期待你如期赶赴江湖之约!