算法落地探究:如何让智能运维更智能

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 算法落地探究:如何让智能运维更智能 演讲人:王鹏 全球敏捷运维峰会 广州站
2. 王鹏 复旦大学计算机科学技术学院,教授 研究领域:序列数据挖掘、智能运维。在数据库和数 据挖掘领域顶级会议和期刊SIGMOD、VLDB、ICDE、 ICSE等上发表论文50多篇。主持和参与科技部重点研 发计划、国家青年973、自然科学重点、上海市科委/ 经信委的多个项目,以及华为、微软等企业合作项目 全球敏捷运维峰会 广州站
3. 标题 1 智能运维现状 2 问题分析 3 探索工作 4 总结 全球敏捷运维峰会 广州站
4. 你觉得智能问答系统很智能吗 海量的算法和技术 vs. 差强人意的效果 全球敏捷运维峰会 广州站
5. 智能运维现状 • 算法日益丰富 – 指标 – 日志/告警 – CMDB、调用链 • 算法效果不断提升 – – – – – – 指标异常检测 容量预测 日志聚类 日志日常检测 告警中的场景挖掘 根因定位 单指标异常检测 日志聚类 多指标异常检测 告警压缩 容量预测 场景挖掘 性能指标 日志/告警 全球敏捷运维峰会 广州站 根因定位 图异常检测 CMDB/调用链
6. 智能运维现状 • 算法日益丰富 – 指标 – 日志/告警 – CMDB、调用链 • 算法效果不断提升 – – – – – – 指标异常检测 容量预测 日志聚类 日志日常检测 告警中的场景挖掘 根因定位 单指标异常检测 日志聚类 多指标异常检测 告警压缩 容量预测 场景挖掘 性能指标 全球敏捷运维峰会 广州站 日志/告警 根因定位 图异常检测 CMDB/调用链
7. 智能运维现状:指标异常检测 • 落地最多的智能运维场景 – 数据容易准备、效果容易验证 – 对大规模指标进行异常检测(10000、100000、。。。) • 研究者提出了大量的异常检测算法 – – – – 单指标、多指标 基于统计模型、基于深度学习 无监督、有监督 多个公司和机构开源了异常检测数据集和算法 全球敏捷运维峰会 广州站
8. 智能运维现状:指标异常检测 • 但是,往往应用的效果不尽如人意 • 问题1:误报太多 – 为了消除漏报,往往造成大量的误报 – 运维人员不得不忽略所有的指标异常告警 • • 问题2:模型/参数难以设置 问题3:缺乏有效的反馈和修正机制 全球敏捷运维峰会 广州站
9. 智能运维现状:指标异常检测 • 但是,往往应用的效果不尽如人意 • • 问题1:误报太多 问题2:模型/参数难以设置 – 不同类型的指标,往往适合不同类型的模型和参数 • 问题3:缺乏有效的反馈和修正机制 全球敏捷运维峰会 广州站
10. 智能运维现状:指标异常检测 • 但是,往往应用的效果不尽如人意 • • • 问题1:误报太多 问题2:模型/参数难以设置 问题3:缺乏有效的反馈和修正机制 – 缺乏问题发现能力:监测5万个指标,一天内报了2000个异常,难以对这些 异常进行展示和分析,类型、主机、时间段、业务?针对异常的交互式探索 – 缺乏基于反馈的模型调整能力,难以应对“这个不是异常,后续检测中不要 再报了”的个性化需求 全球敏捷运维峰会 广州站
11. 智能运维现状:日志智能分析 • 大量企业上线了日志实时聚类和基于日志的异常检测 – 海量日志数据,人工难以处理,基于规则的方法维护性差 – 典型场景:对海量日志做实时聚类,然后做基于日志的异常检测 – 变量取值异常、模板数量异常、语义异常等 • 研究者提出了大量的算法 – 日志聚类:Drain、Spell、LogCluster – 日志异常检测:DeepLog、LogAnomaly – 公开的数据集:Loghub 全球敏捷运维峰会 广州站
12. 智能运维现状:日志智能分析 • 同样,日志智能分析实践存在若干问题 • 问题1:模板质量难以有效评估 – 模板数量大(几百上千),逐个人工判断耗时太长 – 不同的应用目标对模板的要求不同 • 问题2:缺乏有效的反馈和修正机制 – 缺乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆分 “、”这个变量应该被泛化”之类的个性化需求 – 运维专家和算法人员的沟通成本高,“运维人员-实施团队-算法团队”模式 全球敏捷运维峰会 广州站
13. 智能运维现状:日志智能分析 • 同样,日志智能分析实践存在若干问题 • 问题1:模板质量难以有效评估 • • • 模板数量大,逐个人工判断耗时太长 不同的应用目标对模板的要求不同 问题2:缺乏有效的反馈和修正机制 – 缺乏基于反馈的模板调整能力,难以应对“这种模板应该根据这个变量拆分“ ”这个变量应该被泛化”之类的个性化需求 – 运维专家和算法人员的沟通难,“运维专家-实施团队-算法团队”模式 全球敏捷运维峰会 广州站
14. 智能运维现状:告警数据分析 • 应用现状 – 近年来告警相关项目快速增长 – 告警数量太多,运维人员难以有效处理和派单 • 告警压缩和场景挖掘 – 告警压缩:普遍采用日志聚类算法 – 场景挖掘:基于自然语言处理、出现频率、CMDB等定义告警关联程度 – 根因定位:基于CMDB、基于统计推断 全球敏捷运维峰会 广州站
15. 智能运维现状:告警数据分析 • 同样,告警智能处理存在若干问题 • 问题1:告警模板提取效果不佳 – 告警数据更为灵活多变 – 包含大量中文,不同运维人员的告警描述方式存在差异 • 问题2:根因定位效果欠佳 – CMDB普遍质量不高 – 可能真正的故障原因不存在与告警数据中 全球敏捷运维峰会 广州站
16. 智能运维现状:告警数据分析 • 同样,告警智能处理存在若干问题 • 问题1:告警模板提取效果不佳 – 告警数据更为灵活多变 – 包含大量中文,不同运维人员的告警描述方式存在差异 • 问题2:根因定位效果欠佳 – CMDB普遍质量不高 – 可能真正的故障原因不存在与告警数据中 – 标签数据缺失 全球敏捷运维峰会 广州站
17. 标题 1 智能运维现状 2 问题分析 3 探索工作 4 总结 全球敏捷运维峰会 广州站
18. 问题分析 • 深层次原因1:算法需要不断迭代优化 – 从通用算法到定制化算法 – 需要和运维数据、业务特点、运维目标等深度融合 • 深层次原因2:系统故障本身是超低频事件 – 严重故障基本都只可能出现一次 – 零样本或者小样本 全球敏捷运维峰会 广州站
19. 问题分析 • 算法本身:普遍缺乏反馈修正能力 – 这个“异常”我不需要,后续检测中不要再报了 – 这两个“模板”应该合并掉,这个“变量”不能被泛化 – 两种能力的缺失:发现问题的能力、模型自动修正的能力 • 实施过程:运维专家和算法人员的脱离 – 标签数据、快速反馈 – 沟通成本高 全球敏捷运维峰会 广州站 深层次原因1 深层次原因1
20. 问题分析 全球敏捷运维峰会 广州站
21. 问题分析 • 算法和运维的关系 • “完全依靠算法实现自动化运维”现实吗? • 更现实的目标:算法做为一种辅助手段,让运维更高效 – 数据量太大,用算法来提高效率 • 对每天几百TB的日志自动提取模板和变量 • 对上万的指标自动进行异常检测 – 在某些场景下,用算法来提高精度 – 做为一种定位故障过程的辅助手段,灵活快速的查询和探索数据 – 算法做为一种积累知识的方式,构建知识图谱 全球敏捷运维峰会 广州站 深层次原因2
22. 标题 1 智能运维现状 2 问题分析 3 探索工作 4 总结 全球敏捷运维峰会 广州站
23. 我们在进行的尝试 • 如何高效支持反馈 • 快速发现问题的能力 – – – – • 异常置信度 日志模板置信度 异常立方体 可视化 • 如果只让运维专家给10个异常打标签 • 如果只让运维专家给10个模板打标签 你会怎么做? 模型自动修正的能力 – 方法1:基于样例的算法 – 方法2:小样本算法 全球敏捷运维峰会 广州站
24. 我们在进行的尝试 • 如何高效支持反馈 • 快速发现问题的能力 – – – – • 异常置信度 日志模板置信度 异常立方体 可视化 模型自动修正的能力 – 方法1:基于样例的算法 – 方法2:小样本算法 全球敏捷运维峰会 广州站
25. 我们在进行的尝试 • 如何高效支持反馈 • 快速发现问题的能力 – – – – • 异常置信度 日志模板置信度 异常立方体 可视化 基于样例的算法在智能运维领域大有可为! 模型自动修正的能力 – 方法1:基于样例的算法 – 方法2:小样本算法 全球敏捷运维峰会 广州站
26. 我们在进行的尝试 • 做为辅助手段的数据探索技术 – 让运维人员也能灵活的分析数据 1. 基于自然语言的问题系统 – 高易用性,便于运维人员进行个性化数据探索 • 问题示例 1. 2. 3. 4. 5. 6. 在2019/11/28 11:25发生突增异常的指标有哪些? A应用发生异常次数最多的主机是哪台? B应用告警次数最多的告警种类是什么? 最近一周内存使用率最高的十台主机是哪些? 最近十天发生异常次数最多的应用是什么? 最近一周内失败率最高的应用是哪个? 全球敏捷运维峰会 广州站
27. 我们在进行的尝试 • 做为辅助手段的数据探索技术 – 让运维人员也能灵活的分析数据 2. 面向时间关联的复杂查询 PLQ查询:更为简洁高效 – 用于事件关联的快速发现 HDFS日志 全球敏捷运维峰会 广州站 SQL查询
28. 我们在进行的尝试 • 做为辅助手段的数据探索技术 – 让运维人员也能灵活的分析数据 3. 基于拖拽式的分析流程实现 – – – – 便于领域专家结合不同分析算法搭建分析流程 融合了异常检测、聚类、场景挖掘等多种算法 支持不同语言开发的算法 支持输入数据格式的智能学习 全球敏捷运维峰会 广州站
29. 总结 • 智能运维中的算法发挥越来越大的作用 • 智能运维中的算法落地仍有大量问题需要解决 • 算法不能一蹴而就,需要有持续优化的能力 • 算法做为一种运维的辅助手段 全球敏捷运维峰会 广州站
30. THANK YOU! 全球敏捷运维峰会 广州站

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-13 19:42
浙ICP备14020137号-1 $mapa de visitantes$