经验分享:故障管理中的涅槃重生

摘要

写故障相关的文章比较痛苦,着实感觉有点费力。因为故障这个事情,跟技术、管理、团队、人员息息相关,是需要一整套体系来保障的。后来想想, Google 为了介绍稳定性和 SRE 的职责,可以出厚厚一本书,就能明白稳定性和故障管理这项系统工程的复杂度了。

所以,这篇文章还是聚焦一下,聚焦在:故障的事后阶段。作为一个经历了无数故障的技术管理者,把我在经历了煎熬和痛苦之后的一点点体会总结出来的,共勉。也希望我们每一个人和团队都能够在故障的涅槃重生中达到升华。

欢迎在评论区写下你对这篇文章的看法。

评论

- 위키
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-08 23:34
浙ICP备14020137号-1 $방문자$