“AN”浪潮下数据库智能运维的实践与思考
如果无法正常显示,请先停止浏览器的去广告插件。
1. “AN”浪潮下数据库智能运维的实践与思考
演讲人:韩肄旸
全球敏捷运维峰会 广州站
2. “AN”与能力分级定义
”AN“(Autonomous Networks,自动驾驶网络),是中国移动联合华为等合作伙伴于2019年在
TM Forum提出的自动网络与智能运维的发展理念,并于当年主导发布了《自动驾驶网络白皮书 1.0》
,提出 5 级能力框架,明确了在2025年全网各技术栈运维自治能力达到L4的要求。
Autonomous Networks 自动驾驶网络分级标准
分级技术特征
Autonomous
Networks Levels
自动化等级 L0: Manual
operation &
maintenance
手工维护 L1: Assisted
operation &
maintenance
系统辅助作业 L2: Partial
Autonomous
Networks
部分自治网络 L3:Conditional
Autonomous
Networks
条件自治网络 L4: High
Autonomous
Networks
高度自治网络 L5: Full
Autonomous
Networks
完全自治网络
Execution
执行 P人工 P人工 / S系统 S系统 S系统 S系统 S系统
Awareness
感知 P P P/S P S S
Analysis/Decision
分析/决策 P P P P/S S S
Intent/Experience
意图/体验 P P P P P/S S
全部
人工
L0
人工
维护
全球敏捷运维峰会 广州站
线上
记录
L1
系统
辅助
固化
规则
L2
部分
自治
规则
解耦
L3
条件
自治
自动
演进
L4
高度
自治
L5
全部
自治
3. 数据库运维能力分级标准
在“AN”标准体系的引领与启发下制定了数据库运维领域的能力分层标准与发展规划,从故障感知、定
界定位、应急处置和底线恢复四个场景完善了相应的L1-L4的能力标准定义。
数据库运维能力分级标准
专业域
核心场景 场景定义
L1 L2 L3 L4
故障感知 1、对各类潜在的数据库问题隐患进行感知&预测&
预警以及工单通知的能力;
2、对各类已发生的数据库故障进行故障快速发现
(包括采集&关联等)以及工单通知的能力 由DBA通过设备和业务告警,基于
自身运维经验进行故障感知与识别。 由程序员开发程序实现故障感知规
则,系统按照内嵌固定经验规则自
动感知隐患与故障,当规则需要调
整时,需程序员重写程序。 将经验规则从系统中解耦,业务人
员自主配置故障感知特征和模板,
系统按照解耦的规则自动感知数据
库故障事件或者劣化事件。当规则
需要调整时,只需业务人员二次配
置。 由人工训练AI模型,替代人工配
置的经验规则,系统按照AI模型
关联多维数据,智能感知故障事
件或劣化事件。当AI模型需要迭
代时,需由人工进行训练&加载
。
定界定位 对已感知的故障或隐患进行问题定界定位诊断及影响
性分析的能力 由DBA通过设备和业务告警,基于
自身运维经验进行故障定界定位。 由程序员开发程序实现定界定位规
则,系统按照内嵌固定经验规则自
动执行辅助定界定位故障,人工确
认并进行影响分析。当规则需要调
整时,需程序员重写程序。 将经验规则从系统中解耦,业务人
员自主配置诊断规则(如故障树等
),系统按照解耦的规则自动定界
定位故障原因。当规则需要调整时
,只需业务人员二次配置。 由人工训练AI模型,替代人工配
置的经验规则,系统按照AI模型
智能定界定位故障或智能分析业
务影响。当AI模型需要迭代时,
需由人工进行训练&加载。
应急处置 基于定界定位结果,自动生成修复方案并进行评估决
策,进行业务恢复&故障修复&隐患消除的操作 由DBA通过设备和业务告警,基于
自身运维经验进行故障修复方案的
制定与执行。 由程序员开发程序实现故障处理指
令,系统按照内嵌固定指令集自动
执行,人工评估实施效果。当处理
业务规则需要调整时,需程序员重
写程序。 将经验规则从系统中解耦,业务人
员自主配置故障处理模板(如故障
恢复API,故障处理逻辑灵活组合
等),系统按照解耦的规则自动处
理故障。当规则需要调整时,只需
业务人员二次配置。 由人工训练AI模型,替代人工配
置的经验规则,系统按照AI模型
智能处置故障或智能推荐处置方
案。当AI模型需要迭代时,需由
人工进行训练&加载。
底线恢复 对生产数据进行自动备份&策略配置&数据恢复的能
力 由DBA人工编写脚本执行数据备份
与备份恢复操作。 由程序员开发程序实现数据备份与
恢复指令,系统按照内嵌固定指令
集自动执行,人工评估实施效果。
当处理业务规则需要调整时,需程
序员重写程序。 将经验规则从系统中解耦,业务人
员自主配置备份策略(如数据备份
周期,文件目录等),系统按照解
耦的规则自动备份。当规则需要调
整时,只需业务人员二次配置。 ——
数据库
全球敏捷运维峰会 广州站
4. 运维高度自治前提-夯实运维数据基础
从数据汇聚、建模加工、指标体系三个层次构建规范化、标准化的运维数据中心,促进运维数据的高
效共享和应用。
指标
体系
运行指标
建模
加工
数据
汇聚
运营指标 全域运维数据聚合
分类的主题运维数据统一入
库、汇聚整合,统一共享
中间层 应用层 标准化数据服务
明确运维数据使用和消费流
程,统一扎口,提质增效
运维指标
缓冲层
⚫ 运维操作 ⚫ 运行日志 ⚫ 监控告警
⚫ IT运营 ⚫ 运维管理 ⚫ 配置管理
全球敏捷运维峰会 广州站
规范化指标体系
规范化、体系化推动数据资
产的提炼与沉淀
5. 故障感知(L4)
全智能化(L4级别)的故障感知是智慧运维体系的源头,故障感知分为预感知和后感知两种场景,目
前通过隐患分析平台、告警打分平台来实现对全网数据库隐患与故障的发现。
后感知场景
预感知场景
故
障
高可用缺失 性能容量风险
服务不可用
服务质量下降
波形识别 异常检测 时序预测 故障分类
性能数据 业务指标 告警信息 运维日志
算
法
数
据
全球敏捷运维峰会 广州站
6. 定界定位(L4)
通过数据+算法和在AN体系中固化的专家经验,从纷杂繁复的海量运维数据中挖掘有效信息,通过故
障定界定位平台,实现全智能化(L4级别)的故障定界定位来全面辅助运维决策。
数据
+
原始数据
指标数据
配置数据
系统架构数据
运维操作数据
对于初始场景,我们
根据历史故障积累了
大量的“根因问题”
+
算法
专家系统
持续迭代
根因分析系统
多模型融合检测算法
多模型 统计学习
同环比 3-sigma
突增识别 T-test
变点检测 箱线图
毛刺识别 ARIMA
异常
服务
D
B
容器服
务
Web
服务
插件定位
流量不均检测
水平分析依赖
拓扑异常贡献
垂直
分析
基础
设施
异常
行为
故障定位
经验检测模块
离群检测
故障定界系统
开始定位
插件1
全球敏捷运维峰会 广州站
服务1 服务
2
Web
服务 Web
服务
插件列
异常分析插件
插件2
连接池分析插件
诊断结果
7. 应急处置(L3)
智慧运维管理平台
产品功能
支持故障自愈、处置智荐、一键切换共三种应
急处置功能,以及定时巡检和一键下发功能。
前端展示
平台页面展示运行历史结果及日志统计分析结
果;展示自动化功能编辑及审批界面;支持自
定义图形化数据集中展示。
目标端接入方式
支持本地agent方式(页面一键安装agent);
支持ssh下发方式;支持jdbc下发方式。
应急处置实现
应急处置流程简单可分为:应急场景检查-->
场景类型定位-->应急处置-->结果反馈共四个
过程。
全球敏捷运维峰会 广州站
8. 底线恢复(L3)
自动化备份恢复
自动化备份恢复平台实现了备份恢复的平台化配置
,通过循环地恢复和清理环境,可以实现在有限的
资源下完成全量生产备份的可用性验证,确保数据
库的安全底线不丢失,其核心功能点包括:
备份恢复配置
自动化恢复演练
平台化展示
生产应急恢复
全球敏捷运维峰会 广州站
9. “一次故障的悲惨之旅”
全球敏捷运维峰会 广州站
10. 总结与展望
现阶段已经构建起包含故障感知、定界定位、应急处置和底线恢复四个方面的数据库智慧运维体系,整体能力已
经达到集团“AN”标准的L3级别。今年将继续在现有体系下逐步分析短板、优化平台、引入AI,推广全域,力争
在2024年实现数据库运维全栈L4。
优化平台
分析短板
1. 优化故障调度与处置平台,实现全局
1. 故障调度体系不够灵活完善;
2. 故障预感知场景不够丰富;
3. 故障定界定位准确性不够高 ;
故障的动态可视化与标准化;
2. 健全专家经验库,在自主化平台上动
态丰富隐患场景;
3. 优化定界定位平台的告警匹配与定位
算法。
引入AI
推广全域
1. 在告警感知与定位分析层面引入
AI算法,提升准确率;
2. 结合AI自处置能力,持续开展数据
1. 固化运维数字化实践经验,从单个技
术栈推广至数据库运维全域;
2. 结合集团“九天”平台,将成熟AI场
库自愈场景的建设 ;
景与功能推广至全集团。
全球敏捷运维峰会 广州站
11. THANK YOU!
全球敏捷运维峰会 广州站