超大规模数据库集群保稳定的创新之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 赵应钢
2. 个人简介 曾就职于百度、新浪、去哪儿,2015年加入美团。 数据库团队-DBA团队负责人。 15年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构设计经验。 High Availability Performance Stability Security Manageability Observability Scalability T C O
3. 数据库稳定性保障痛点-挑战无处不在,应对越来越难 访问量高速增长,集群规模快速膨胀 数据库上下游链路长,故障场景五花八门 单集群数据量越来越大,扩容和恢复速度受限 拓扑变更、系统重构、技术优化交叠进行 品类快速增加:RDS、Blade、TSDB 环境越来越复杂:多Region & 多AZ & 混合云 低垂的果实已经摘完 小概率事件造成大影响 故障发生概率 故障影响大小
4. 数据库稳定性保障破局之道-提高MTTF,降低MTTR 稳定性 = MTTF/MTBF = MTTF/(MTTF+MTTR) 目标:首要的是提高MTTF(平均无故障间隔),其次是降低MTTR(平均修复时间) 手段:故障前降几率;故障中缩范围、压时长;故障后复盘改进&复现验收 MTTF MTTR 可用时间 不可用时间 可用=可靠+可维护 可用性=MTTF/(MTTF+MTTR) 故障 发现 根因 定位 1 5 故障 转移 故障 修复 10
5. 数据库稳定性保障创新之路-构建闭环的保稳定体系 从事前、事中、事后的故障生命周期,以及软件开发的各个阶段,全面提升管控和应急响应能力
6. 数据库稳定性保障具体实践-进攻&防守&自愈&演练 高频演练& 制造故障 演练能力 建设 能力增强 体验提升 用户高频 使用 稳定性能力的 持续提升 开发迭代 发现问题 ⻛险 平台需求 ⻛险治理

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-17 16:13
浙ICP备14020137号-1 $Map of visitor$