浙江移动稳定性体系建设实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:史军艇
2. 背景与挑战 • • • • • 高科技卡脖子 自主可控 贸易战 碳中和、碳达峰 ... 人: 用户规模、IOT... 时: 历史包袱、 业务长尾、 巨石架构 货: 5G新基建、信创... 场: 新应用场景、科技创新、元宇宙...
3. 浙江移动云原生演进历程
4. 信创演进 运维保障 运维监控、架构掌控力从零开 始到全覆盖 软件适配 软件适配改造量大,牵涉的业 务范围广 环境割接 涉及大规模割接迁移动作,引 起的变更风险大 性能对标 异构环境下,各个产品及多产 品组合下的性能预测对整体系 统的影响 底层异构 从芯片、操作系统、数据库、 中间件到应用的全信创改造, 导致“软件复杂度”倍增。 全信创软硬件平面的叠加,在原有云原生架构基础上,无疑是迭代挑战!
5. 为什么要建稳定性体系 假设一个系统依赖于50个微服务中心, 不考虑异构底座和迭代加速的影响, 若每个系统可用性能维持在99.99%, 那么系统的整体可用性只有99.5% 稳态 + 敏态 = 双 态 复杂的云原生架构时代,想要“鱼和熊掌兼得”,稳定性体系建设是唯一途径!
6. 什么是稳定性 物理系统稳定性: 当系统处于一个平衡的状态时(就相 当于小球在木块上放置的状态一样),如果 受到外来作用的影响时,系统经过一个过渡 过程仍然能够回到原来的平衡状态,我们称 这个系统就是稳定的,否则称系统不稳定。 软件系统稳定性
7. 什么是稳定性 另一个角度看稳定性,反面就是“故障”,容易进行度量、分析、实施。
8. 组织架构 数智转型、平台支撑、组织变革,保障1-5-10
9. 故障感知 用户卡顿监测 应用健康度Metric 分而治之、数据融合、信息拉通 服务指标 业务量秒级监控 应用日志Log 网络态势 调用链Trace
10. 故障通告
11. 故障定位 • • • • 不追求完美的aiops,落地实用的智能推荐 可用区 系统边界 组件类型 诊断原因
12. 故障处置 优雅停机 注册JDK的ShutdownHook 平面逃生 • • • • • • • • 对象自愈 数据库容灾切换 负载均衡切换 主机隔离 主机重启 容器自愈 中间件集群切换 应用进程重启 ... 从工程角度极其有效的两大处置方式,几乎“包治百病” 调用 addShutdownHook
13. SRE流水线 稳定性体系不止眼下的应急抢修,跨越纯粹的故障抵御模式,一直向前走!
14. 多平面能力 上线发布体系和交付护航体系的无缝衔接:沙箱发布和沙箱演练
15. 流量回放和控制能力 无论做什么工程:流量是前提 随心所欲的真实流量来源:应用于线上治理、沙箱演练、全链路压测
16. SRE前移:交付护航体系 • 准生产演练、沙箱对抗 • 纸牌演练、预案设计 • 监控全覆盖 • 标准化集成 • 规范架构模型 • 系统价值为基石,项目评价 结合架构评级
17. SRE前移:架构设计 庖丁解牛:流量入口、服务梳理、外围依赖
18. SRE前移:场景化系统演练
19. SRE前移:演练平台化支撑
20. SRE前移:混沌工程自动化
21. SRE前移:沙箱演练
22. SRE前移:混沌工程自动化 任意时间、任意地方开盲盒,是对系统的最坚信底气!
23. SRE前移:案例
24. 总结 • • • • • • • 稳定性挑战是云原生演进的必经之路,建议打造一个科学的落地体系 技术架构可以分层,运维运营体系需要统一 故障抵御围绕1-5-10目标 稳定性不只是眼下的故障 SRE需自我革新,价值驱动,前移到架构管控,自己手上的才最真实 结合混沌工程、标准化集成等实践,创造高产值、高质量交付 ...
25.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.0. UTC+08:00, 2024-05-05 17:54
浙ICP备14020137号-1 $访客地图$