浙江移动稳定性体系建设实践

1. 演讲人：史军艇

2. 背景与挑战 • • • • • 高科技卡脖子自主可控贸易战碳中和、碳达峰 ... 人：用户规模、IOT... 时: 历史包袱、业务长尾、巨石架构货： 5G新基建、信创... 场：新应用场景、科技创新、元宇宙...

3. 浙江移动云原生演进历程

4. 信创演进运维保障运维监控、架构掌控力从零开始到全覆盖软件适配软件适配改造量大，牵涉的业务范围广环境割接涉及大规模割接迁移动作，引起的变更风险大性能对标异构环境下，各个产品及多产品组合下的性能预测对整体系统的影响底层异构从芯片、操作系统、数据库、中间件到应用的全信创改造，导致“软件复杂度”倍增。全信创软硬件平面的叠加，在原有云原生架构基础上，无疑是迭代挑战！

5. 为什么要建稳定性体系假设一个系统依赖于50个微服务中心，不考虑异构底座和迭代加速的影响，若每个系统可用性能维持在99.99%，那么系统的整体可用性只有99.5% 稳态 + 敏态 = 双态复杂的云原生架构时代，想要“鱼和熊掌兼得”，稳定性体系建设是唯一途径!

6. 什么是稳定性物理系统稳定性：当系统处于一个平衡的状态时（就相当于小球在木块上放置的状态一样），如果受到外来作用的影响时，系统经过一个过渡过程仍然能够回到原来的平衡状态，我们称这个系统就是稳定的，否则称系统不稳定。软件系统稳定性

7. 什么是稳定性另一个角度看稳定性，反面就是“故障”，容易进行度量、分析、实施。

8. 组织架构数智转型、平台支撑、组织变革，保障1-5-10

9. 故障感知用户卡顿监测应用健康度Metric 分而治之、数据融合、信息拉通服务指标业务量秒级监控应用日志Log 网络态势调用链Trace

10. 故障通告

11. 故障定位 • • • • 不追求完美的aiops，落地实用的智能推荐可用区系统边界组件类型诊断原因

12. 故障处置优雅停机注册JDK的ShutdownHook 平面逃生 • • • • • • • • 对象自愈数据库容灾切换负载均衡切换主机隔离主机重启容器自愈中间件集群切换应用进程重启 ... 从工程角度极其有效的两大处置方式，几乎“包治百病” 调用 addShutdownHook

13. SRE流水线稳定性体系不止眼下的应急抢修，跨越纯粹的故障抵御模式，一直向前走！

14. 多平面能力上线发布体系和交付护航体系的无缝衔接：沙箱发布和沙箱演练

15. 流量回放和控制能力无论做什么工程：流量是前提随心所欲的真实流量来源：应用于线上治理、沙箱演练、全链路压测

16. SRE前移：交付护航体系 • 准生产演练、沙箱对抗 • 纸牌演练、预案设计 • 监控全覆盖 • 标准化集成 • 规范架构模型 • 系统价值为基石，项目评价结合架构评级

17. SRE前移：架构设计庖丁解牛：流量入口、服务梳理、外围依赖

18. SRE前移：场景化系统演练

19. SRE前移：演练平台化支撑

20. SRE前移：混沌工程自动化

21. SRE前移：沙箱演练

22. SRE前移：混沌工程自动化任意时间、任意地方开盲盒，是对系统的最坚信底气！

23. SRE前移：案例

24. 总结 • • • • • • • 稳定性挑战是云原生演进的必经之路，建议打造一个科学的落地体系技术架构可以分层，运维运营体系需要统一故障抵御围绕1-5-10目标稳定性不只是眼下的故障 SRE需自我革新，价值驱动，前移到架构管控，自己手上的才最真实结合混沌工程、标准化集成等实践，创造高产值、高质量交付 ...

25.