作者介绍
TakinTalks社区专家团特聘讲师。2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、创新等全线产品的运维保障工作,同时参与公司日志、监控等基础设施的建设。参与或主导过多次公司基础设施的调整、改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。
温馨提醒:本文约2900字,预计花费4分钟阅读。后台回复“8201”获取文件资料;
回复 “交流” 进入读者交流群;
一、故障后的复盘该怎么进行?
1.1 故障复盘的黄金3问
我们应该怎么做,才能更快地去恢复业务?
我们应该怎么做,才能避免再次出现类似的问题?
我们有哪些好的经验可以总结、提炼并固化?
1.2 故障定级、定性与定责
1.3 输出报告与定期回顾
二、故障管理的2个要点分享
2.1 通过故障预算管控系统故障
2.2 管理需要组织来支撑
写在最后的话
回复【8201】关键词获取讲师PPT
回复【交流】进入读者交流群
点击【查看原文】直达精彩演讲回放