算法落地探究:如何让智能运维更智能
如果无法正常显示,请先停止浏览器的去广告插件。
1. 算法落地探究:如何让智能运维更智能
演讲人:王鹏
全球敏捷运维峰会 广州站
2. 王鹏
复旦大学计算机科学技术学院,教授
研究领域:序列数据挖掘、智能运维。在数据库和数
据挖掘领域顶级会议和期刊SIGMOD、VLDB、ICDE、
ICSE等上发表论文50多篇。主持和参与科技部重点研
发计划、国家青年973、自然科学重点、上海市科委/
经信委的多个项目,以及华为、微软等企业合作项目
全球敏捷运维峰会 广州站
3. 标题
1 智能运维现状
2 问题分析
3 探索工作
4 总结
全球敏捷运维峰会 广州站
4. 你觉得智能问答系统很智能吗
海量的算法和技术
vs.
差强人意的效果
全球敏捷运维峰会 广州站
5. 智能运维现状
•
算法日益丰富
– 指标
– 日志/告警
– CMDB、调用链
•
算法效果不断提升
–
–
–
–
–
–
指标异常检测
容量预测
日志聚类
日志日常检测
告警中的场景挖掘
根因定位
单指标异常检测 日志聚类
多指标异常检测 告警压缩
容量预测 场景挖掘
性能指标 日志/告警
全球敏捷运维峰会 广州站
根因定位
图异常检测
CMDB/调用链
6. 智能运维现状
•
算法日益丰富
– 指标
– 日志/告警
– CMDB、调用链
•
算法效果不断提升
–
–
–
–
–
–
指标异常检测
容量预测
日志聚类
日志日常检测
告警中的场景挖掘
根因定位
单指标异常检测 日志聚类
多指标异常检测 告警压缩
容量预测 场景挖掘
性能指标
全球敏捷运维峰会 广州站
日志/告警
根因定位
图异常检测
CMDB/调用链
7. 智能运维现状:指标异常检测
• 落地最多的智能运维场景
– 数据容易准备、效果容易验证
– 对大规模指标进行异常检测(10000、100000、。。。)
• 研究者提出了大量的异常检测算法
–
–
–
–
单指标、多指标
基于统计模型、基于深度学习
无监督、有监督
多个公司和机构开源了异常检测数据集和算法
全球敏捷运维峰会 广州站
8. 智能运维现状:指标异常检测
• 但是,往往应用的效果不尽如人意
• 问题1:误报太多
– 为了消除漏报,往往造成大量的误报
– 运维人员不得不忽略所有的指标异常告警
•
•
问题2:模型/参数难以设置
问题3:缺乏有效的反馈和修正机制
全球敏捷运维峰会 广州站
9. 智能运维现状:指标异常检测
• 但是,往往应用的效果不尽如人意
•
• 问题1:误报太多
问题2:模型/参数难以设置
– 不同类型的指标,往往适合不同类型的模型和参数
•
问题3:缺乏有效的反馈和修正机制
全球敏捷运维峰会 广州站
10. 智能运维现状:指标异常检测
• 但是,往往应用的效果不尽如人意
•
•
• 问题1:误报太多
问题2:模型/参数难以设置
问题3:缺乏有效的反馈和修正机制
– 缺乏问题发现能力:监测5万个指标,一天内报了2000个异常,难以对这些
异常进行展示和分析,类型、主机、时间段、业务?针对异常的交互式探索
– 缺乏基于反馈的模型调整能力,难以应对“这个不是异常,后续检测中不要
再报了”的个性化需求
全球敏捷运维峰会 广州站
11. 智能运维现状:日志智能分析
• 大量企业上线了日志实时聚类和基于日志的异常检测
– 海量日志数据,人工难以处理,基于规则的方法维护性差
– 典型场景:对海量日志做实时聚类,然后做基于日志的异常检测
– 变量取值异常、模板数量异常、语义异常等
• 研究者提出了大量的算法
– 日志聚类:Drain、Spell、LogCluster
– 日志异常检测:DeepLog、LogAnomaly
– 公开的数据集:Loghub
全球敏捷运维峰会 广州站
12. 智能运维现状:日志智能分析
• 同样,日志智能分析实践存在若干问题
• 问题1:模板质量难以有效评估
– 模板数量大(几百上千),逐个人工判断耗时太长
– 不同的应用目标对模板的要求不同
•
问题2:缺乏有效的反馈和修正机制
– 缺乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆分
“、”这个变量应该被泛化”之类的个性化需求
– 运维专家和算法人员的沟通成本高,“运维人员-实施团队-算法团队”模式
全球敏捷运维峰会 广州站
13. 智能运维现状:日志智能分析
• 同样,日志智能分析实践存在若干问题
• 问题1:模板质量难以有效评估
•
•
•
模板数量大,逐个人工判断耗时太长
不同的应用目标对模板的要求不同
问题2:缺乏有效的反馈和修正机制
– 缺乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆分“
”这个变量应该被泛化”之类的个性化需求
– 运维专家和算法人员的沟通难,“运维专家-实施团队-算法团队”模式
全球敏捷运维峰会 广州站
14. 智能运维现状:告警数据分析
• 应用现状
– 近年来告警相关项目快速增长
– 告警数量太多,运维人员难以有效处理和派单
• 告警压缩和场景挖掘
– 告警压缩:普遍采用日志聚类算法
– 场景挖掘:基于自然语言处理、出现频率、CMDB等定义告警关联程度
– 根因定位:基于CMDB、基于统计推断
全球敏捷运维峰会 广州站
15. 智能运维现状:告警数据分析
• 同样,告警智能处理存在若干问题
• 问题1:告警模板提取效果不佳
– 告警数据更为灵活多变
– 包含大量中文,不同运维人员的告警描述方式存在差异
•
问题2:根因定位效果欠佳
– CMDB普遍质量不高
– 可能真正的故障原因不存在与告警数据中
全球敏捷运维峰会 广州站
16. 智能运维现状:告警数据分析
• 同样,告警智能处理存在若干问题
• 问题1:告警模板提取效果不佳
– 告警数据更为灵活多变
– 包含大量中文,不同运维人员的告警描述方式存在差异
•
问题2:根因定位效果欠佳
– CMDB普遍质量不高
– 可能真正的故障原因不存在与告警数据中
– 标签数据缺失
全球敏捷运维峰会 广州站
17. 标题
1 智能运维现状
2 问题分析
3 探索工作
4 总结
全球敏捷运维峰会 广州站
18. 问题分析
•
深层次原因1:算法需要不断迭代优化
– 从通用算法到定制化算法
– 需要和运维数据、业务特点、运维目标等深度融合
•
深层次原因2:系统故障本身是超低频事件
– 严重故障基本都只可能出现一次
– 零样本或者小样本
全球敏捷运维峰会 广州站
19. 问题分析
•
算法本身:普遍缺乏反馈修正能力
– 这个“异常”我不需要,后续检测中不要再报了
– 这两个“模板”应该合并掉,这个“变量”不能被泛化
– 两种能力的缺失:发现问题的能力、模型自动修正的能力
•
实施过程:运维专家和算法人员的脱离
– 标签数据、快速反馈
– 沟通成本高
全球敏捷运维峰会 广州站
深层次原因1
深层次原因1
20. 问题分析
全球敏捷运维峰会 广州站
21. 问题分析
• 算法和运维的关系
• “完全依靠算法实现自动化运维”现实吗?
• 更现实的目标:算法做为一种辅助手段,让运维更高效
– 数据量太大,用算法来提高效率
• 对每天几百TB的日志自动提取模板和变量
• 对上万的指标自动进行异常检测
– 在某些场景下,用算法来提高精度
– 做为一种定位故障过程的辅助手段,灵活快速的查询和探索数据
– 算法做为一种积累知识的方式,构建知识图谱
全球敏捷运维峰会 广州站
深层次原因2
22. 标题
1 智能运维现状
2 问题分析
3 探索工作
4 总结
全球敏捷运维峰会 广州站
23. 我们在进行的尝试
• 如何高效支持反馈
• 快速发现问题的能力
–
–
–
–
•
异常置信度
日志模板置信度
异常立方体
可视化
• 如果只让运维专家给10个异常打标签
• 如果只让运维专家给10个模板打标签
你会怎么做?
模型自动修正的能力
– 方法1:基于样例的算法
– 方法2:小样本算法
全球敏捷运维峰会 广州站
24. 我们在进行的尝试
• 如何高效支持反馈
• 快速发现问题的能力
–
–
–
–
•
异常置信度
日志模板置信度
异常立方体
可视化
模型自动修正的能力
– 方法1:基于样例的算法
– 方法2:小样本算法
全球敏捷运维峰会 广州站
25. 我们在进行的尝试
• 如何高效支持反馈
• 快速发现问题的能力
–
–
–
–
•
异常置信度
日志模板置信度
异常立方体
可视化
基于样例的算法在智能运维领域大有可为!
模型自动修正的能力
– 方法1:基于样例的算法
– 方法2:小样本算法
全球敏捷运维峰会 广州站
26. 我们在进行的尝试
•
做为辅助手段的数据探索技术
– 让运维人员也能灵活的分析数据
1. 基于自然语言的问题系统
– 高易用性,便于运维人员进行个性化数据探索
•
问题示例
1.
2.
3.
4.
5.
6.
在2019/11/28 11:25发生突增异常的指标有哪些?
A应用发生异常次数最多的主机是哪台?
B应用告警次数最多的告警种类是什么?
最近一周内存使用率最高的十台主机是哪些?
最近十天发生异常次数最多的应用是什么?
最近一周内失败率最高的应用是哪个?
全球敏捷运维峰会 广州站
27. 我们在进行的尝试
•
做为辅助手段的数据探索技术
– 让运维人员也能灵活的分析数据
2. 面向时间关联的复杂查询
PLQ查询:更为简洁高效
– 用于事件关联的快速发现
HDFS日志
全球敏捷运维峰会 广州站
SQL查询
28. 我们在进行的尝试
•
做为辅助手段的数据探索技术
– 让运维人员也能灵活的分析数据
3. 基于拖拽式的分析流程实现
–
–
–
–
便于领域专家结合不同分析算法搭建分析流程
融合了异常检测、聚类、场景挖掘等多种算法
支持不同语言开发的算法
支持输入数据格式的智能学习
全球敏捷运维峰会 广州站
29. 总结
• 智能运维中的算法发挥越来越大的作用
• 智能运维中的算法落地仍有大量问题需要解决
• 算法不能一蹴而就,需要有持续优化的能力
• 算法做为一种运维的辅助手段
全球敏捷运维峰会 广州站
30. THANK YOU!
全球敏捷运维峰会 广州站