2. 个人简介
曾就职于百度、新浪、去哪儿,2015年加入美团。
数据库团队-DBA团队负责人。
15年数据库自动化运维开发、数据库性能优化、大规模数据库集群技术保障和架构设计经验。
High Availability
Performance
Stability
Security
Manageability
Observability
Scalability
T
C
O
3. 数据库稳定性保障痛点-挑战无处不在,应对越来越难
访问量高速增长,集群规模快速膨胀
数据库上下游链路长,故障场景五花八门
单集群数据量越来越大,扩容和恢复速度受限
拓扑变更、系统重构、技术优化交叠进行
品类快速增加:RDS、Blade、TSDB
环境越来越复杂:多Region & 多AZ & 混合云
低垂的果实已经摘完
小概率事件造成大影响
故障发生概率
故障影响大小
4. 数据库稳定性保障破局之道-提高MTTF,降低MTTR
稳定性 = MTTF/MTBF = MTTF/(MTTF+MTTR)
目标:首要的是提高MTTF(平均无故障间隔),其次是降低MTTR(平均修复时间)
手段:故障前降几率;故障中缩范围、压时长;故障后复盘改进&复现验收
MTTF MTTR
可用时间 不可用时间
可用=可靠+可维护
可用性=MTTF/(MTTF+MTTR)
故障
发现 根因
定位
1 5
故障
转移
故障
修复
10
5. 数据库稳定性保障创新之路-构建闭环的保稳定体系
从事前、事中、事后的故障生命周期,以及软件开发的各个阶段,全面提升管控和应急响应能力
6. 数据库稳定性保障具体实践-进攻&防守&自愈&演练
高频演练&
制造故障
演练能力
建设
能力增强
体验提升
用户高频
使用
稳定性能力的
持续提升
开发迭代
发现问题
⻛险
平台需求
⻛险治理