浙江移动稳定性体系建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:史军艇
2. 背景与挑战
•
•
•
•
•
高科技卡脖子
自主可控
贸易战
碳中和、碳达峰
...
人: 用户规模、IOT...
时:
历史包袱、
业务长尾、
巨石架构
货: 5G新基建、信创...
场: 新应用场景、科技创新、元宇宙...
3. 浙江移动云原生演进历程
4. 信创演进
运维保障 运维监控、架构掌控力从零开
始到全覆盖
软件适配 软件适配改造量大,牵涉的业
务范围广
环境割接 涉及大规模割接迁移动作,引
起的变更风险大
性能对标 异构环境下,各个产品及多产
品组合下的性能预测对整体系
统的影响
底层异构 从芯片、操作系统、数据库、
中间件到应用的全信创改造,
导致“软件复杂度”倍增。
全信创软硬件平面的叠加,在原有云原生架构基础上,无疑是迭代挑战!
5. 为什么要建稳定性体系
假设一个系统依赖于50个微服务中心,
不考虑异构底座和迭代加速的影响,
若每个系统可用性能维持在99.99%,
那么系统的整体可用性只有99.5%
稳态
+
敏态
=
双
态
复杂的云原生架构时代,想要“鱼和熊掌兼得”,稳定性体系建设是唯一途径!
6. 什么是稳定性
物理系统稳定性:
当系统处于一个平衡的状态时(就相
当于小球在木块上放置的状态一样),如果
受到外来作用的影响时,系统经过一个过渡
过程仍然能够回到原来的平衡状态,我们称
这个系统就是稳定的,否则称系统不稳定。
软件系统稳定性
7. 什么是稳定性
另一个角度看稳定性,反面就是“故障”,容易进行度量、分析、实施。
8. 组织架构
数智转型、平台支撑、组织变革,保障1-5-10
9. 故障感知
用户卡顿监测
应用健康度Metric
分而治之、数据融合、信息拉通
服务指标
业务量秒级监控
应用日志Log
网络态势
调用链Trace
10. 故障通告
11. 故障定位
•
•
•
•
不追求完美的aiops,落地实用的智能推荐
可用区
系统边界
组件类型
诊断原因
12. 故障处置
优雅停机
注册JDK的ShutdownHook
平面逃生
•
•
•
•
•
•
•
•
对象自愈
数据库容灾切换
负载均衡切换
主机隔离
主机重启
容器自愈
中间件集群切换
应用进程重启
...
从工程角度极其有效的两大处置方式,几乎“包治百病”
调用 addShutdownHook
13. SRE流水线
稳定性体系不止眼下的应急抢修,跨越纯粹的故障抵御模式,一直向前走!
14. 多平面能力
上线发布体系和交付护航体系的无缝衔接:沙箱发布和沙箱演练
15. 流量回放和控制能力
无论做什么工程:流量是前提
随心所欲的真实流量来源:应用于线上治理、沙箱演练、全链路压测
16. SRE前移:交付护航体系
• 准生产演练、沙箱对抗
• 纸牌演练、预案设计
• 监控全覆盖
• 标准化集成
• 规范架构模型
• 系统价值为基石,项目评价
结合架构评级
17. SRE前移:架构设计
庖丁解牛:流量入口、服务梳理、外围依赖
18. SRE前移:场景化系统演练
19. SRE前移:演练平台化支撑
20. SRE前移:混沌工程自动化
21. SRE前移:沙箱演练
22. SRE前移:混沌工程自动化
任意时间、任意地方开盲盒,是对系统的最坚信底气!
23. SRE前移:案例
24. 总结
•
•
•
•
•
•
•
稳定性挑战是云原生演进的必经之路,建议打造一个科学的落地体系
技术架构可以分层,运维运营体系需要统一
故障抵御围绕1-5-10目标
稳定性不只是眼下的故障
SRE需自我革新,价值驱动,前移到架构管控,自己手上的才最真实
结合混沌工程、标准化集成等实践,创造高产值、高质量交付
...
25.