01
—
背景
在任何一个生产产品的行业,不管是互联网行业,还是建筑行业,或者是医疗行业,都得面对一个事物,那就是故障;
故障处理的好,那只是一个故障;故障处理的不好,就有可能升级成不同级别的事故;
出现事故,这是任何人都不想看见的;
如何避免事故,是安全生产的头等大事;
在这里,我会介绍我们公司的一些安全生产及故障管理的实践,大概分如下几部分:
故障前;
故障中;
故障后;
故障处理流程图;
事故管理制度;
可用率保障小组。
02
—
故障前
既然是故障前,说明故障还未发生,那故障前的关键工作包含以下几点:
故障预警的核心工作是完善监控告警体系,这也是一个专题工作及实践;
监控告警有没有配置:覆盖率是否100%?监控告警覆盖对象有没有被自动化添加到告警对象中?
监控告警覆盖维度是否全面?常见的维度(指标、日志、trace),需要整个业务研发团队一起完善,需要对自己负责的系统做好监控告警;
告警触发方式是否完善?阈值告警(count)、斜率告警(pdiff)等;
监控告警有无触发验证?配置了告警,但没有验证过,往往会失效;
完善监控告警体系。
故障原因:
优化措施:
预警响应有两个关键点:
告警方式怎么有效通知到处理人?
故障怎么能被及时处理?
03
—
故障中
04
—
故障后
事故收尾工作
05
—
故障处理流程图
根据以上的“故障前、故障中、故障后”总结出微鲤故障处理流程图,SOP如下图,具体情况,还需具体分析。
06
—
事故管理制度
目的:出了故障后,我们需要上报故障,看故障是否升级为事故,并进行事故管理,所以需要建立对应的事故管理制度。
事故管理制度关键工作包含以下几点:
07
—
可用率保障小组
机制:
责任方无异议,遵循事故管理机制责任划分;
业务方需要对业务可用率做好监控告警,因业务方不清楚自己负责业务的可用率导致的故障由业务方负主责(目的:推进业务方关注自己的业务可用性);
08
—
总结
以上是我们在故障管理方面的实践经验,主要就是故障管理三部曲以及其他一些实践,包括故障前、故障中、故障后、故障处理流程图、事故管理制度、可用率保障小组等方面实践。
作者 | 邹永红 高级SRE专家