平安银行智能化运维之故障自愈
如果无法正常显示,请先停止浏览器的去广告插件。
1. 平安银行
智能化运维—故障自愈
分享人:曾庆淡
时间:2022年6月17日
2. 目录
1 运维开发的初心使命
2 智能运维—场景、路径、选择
3 数据库故障自愈
4 未来展望
3. 01
初心使命
4. 运维开发的初心
单击此处添加标题
保障 [解决内部需求]
提升变更和交付质量
缩短故障处理时间
保障系统高效稳定
创新 [运维的理想]
服务 [做好外部服务]
服务开发、服务DBA
科技思维解决痛点
迭代让用户从吐槽到肯定
不背锅
不值班
不运维
5. 运维开发的初心
单击此处添加标题
持续交付
标准化、端到端
持续发布
SQL审核、安全屏蔽、测试支持
持续运维
自动化变更、一键切换
多元监控
开源(Prometheus)、自研
应急管理
零依赖应急操作、数据恢复
智能运维
动态阀值、故障自愈、无人值守
6. 运维开发的初心
单击此处添加标题
我们有日常操作的线上化平台,但一个熟练的DBA登录系统、找到环境、获取信息、研判处理,需要好几分钟。
夜间、周末、节假日,处理的时间会加长,值班人员的技能也参差不齐。
如果告警能够快速发现处理,很多问题就能在一开始被解决,避免后面的影响,也减少了很多复盘。
7. 02
智能运维
8. 什么是智能运维
单击此处添加标题
AIOps, Artificial Intelligence for IT Operations
通过机器学习等人工智能算法,自动地从运维数据中学习
及总结规则,并作出决策的运维方式。
以大数据和机器学习为基础,增强传统运维的能力。
9. 智能运维场景方向
单击此处添加标题
好
快
质量方向
异常预测、异常检测、故障定位
故障止损、根因分析、故障自愈
效率方向
交易预测、批量预测、容量预测
配置发现、ChatOps
稳
省
成本方向
容量优化、性能优化、告警收敛
安全方向
入侵检测、脆弱感知、行为分析
安全编排与自动化响应(SOAR)
10. 智能运维实现路径
单击此处添加标题
业务监控数据:交易数、成功
率、响应时间。。。
基础监控数据:应用、数据库、
中间件、操作系统、存储、网
CMDB:应用拓扑关系、环境 初级编排:选择算法、确定数
依赖关系 据、编排算法
知识库:经验知识 终极编排:根据输入数据特征、
络、服务器。。。
基础日志:应用、数据库、中
间件、操作系统、存储、网络、
服务器。。
告警信息:告警内容、标签
ITSM:变更单
自动选择算法、自动编排
自动化工具:ansible、puppet
云、容器
11. 人工智能---监督学习
单击此处添加标题
贝叶斯模型
神经网络
支持向量机
决策树
12. 决策树
单击此处添加标题
13. 03
数据库故障自愈
14. 故障自愈系统示意图
告警系统
消息队列
分析模块 输入模块
决策模块 训练模块
生产环境
统一操作平台
统
一
接
口
决策树集合
15. 故障自愈系统示例:FRA区告警处理
单击此处添加标题
1、DBA根据经验列写故障的场景及处理方法
3、来了一个告警,FRA>90%, 补充相应检测值,作为测
试集给到决策树
2、智能学习,得到处理FRA告警的决策树模型
16. 故障自愈系统示例:自助配置
单击此处添加标题
17. 故障自愈系统示例:表空间自动扩容、执行计划自动固化
单击此处添加标题
18. 结果展示
单击此处添加标题
每月有多例告警通过自愈的方式自动处理了。
FRA区的处理效率缩短至6秒以内,相较人工处理效率提升100倍以上。
SQL执行计划的处理也是在10秒内完成,非常有效避免问题恶化。
19. 04
总结展望
20. 总结
单击此处添加标题
决策树直观明了,并创
新性实现了与运维DBA
的互动自助调试。
01
02
明确策略场景,该方式
安全可靠,有效规避自
动学习“概率性”问题
03
智能学习,自定义接口,
灵活自定义,代码复用
度高。
21. 展望—无人值守
单击此处添加标题
22. 谢谢