超大规模数据库集群保稳定的创新之路

如果无法正常显示，请先停止浏览器的去广告插件。

1. 赵应钢

2. 个人简介曾就职于百度、新浪、去哪儿，2015年加入美团。数据库团队-DBA团队负责人。 15年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构设计经验。 High Availability Performance Stability Security Manageability Observability Scalability T C O

3. 数据库稳定性保障痛点-挑战无处不在，应对越来越难访问量高速增长，集群规模快速膨胀数据库上下游链路长，故障场景五花八门单集群数据量越来越大，扩容和恢复速度受限拓扑变更、系统重构、技术优化交叠进行品类快速增加：RDS、Blade、TSDB 环境越来越复杂：多Region & 多AZ & 混合云低垂的果实已经摘完小概率事件造成大影响故障发生概率故障影响大小

4. 数据库稳定性保障破局之道-提高MTTF，降低MTTR 稳定性 = MTTF/MTBF = MTTF/(MTTF+MTTR）目标：首要的是提高MTTF（平均无故障间隔），其次是降低MTTR（平均修复时间）手段：故障前降几率；故障中缩范围、压时长；故障后复盘改进&复现验收 MTTF MTTR 可用时间不可用时间可用=可靠+可维护可用性=MTTF/(MTTF+MTTR) 故障发现根因定位 1 5 故障转移故障修复 10

5. 数据库稳定性保障创新之路-构建闭环的保稳定体系从事前、事中、事后的故障生命周期，以及软件开发的各个阶段，全面提升管控和应急响应能力

6. 数据库稳定性保障具体实践-进攻&防守&自愈&演练高频演练& 制造故障演练能力建设能力增强体验提升用户高频使用稳定性能力的持续提升开发迭代发现问题⻛险平台需求⻛险治理