AIOps在美团的探索与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. AIOps在美团的探索与实践 分享人:胡原 时间:2021年8月 美团基础技术部
2. 自我介绍 胡 原 2016年7月加入美团 5年系统开发经验 服务运维部/故障管理开发组
3. 目录 01 AIOps简介 02 美团AIOps体系介绍 03 故障发现探索与落地 04 更多探索
4. AIOps简介 人、设备 人、工具、设备 质量↑ 效率↑ 成本↓ 数据、算法、工具、设备
5. 目录 01 AIOps简介 02 美团AIOps体系介绍 03 故障发现探索与落地 04 更多探索
6. 美团AIOps体系 美团AIOps体系之三横一纵
7. 美团AIOps体系 美团AIOps体系团队建设
8. 美团AIOps体系 美团AIOps体系之故障管理
9. 美团AIOps体系 美团AIOps体系之故障管理
10. 目录 01 AIOps简介 02 美团AIOps体系介绍 03 故障发现探索与落地 04 更多探索
11. 异常检测——探索历程
12. 异常检测——整体思路 指标分类 • • 海量指标:指标10亿,监控指 标37万,核心指标8千 形态各异:请求量,订单量, QPS,错误数,耗时,成功、 失败率等 实时检测 模型构建 • • 理论基础:Opprentice: Towards practical and automatic anomaly detection through machine learning 实践基础:腾讯开源的Metis • 性能优化:结合实际情况,迭代 优化模型和检测流程
13. 异常检测——指标分类 分 几 类 大 庞 数量 异 各 形态 周期型 分析指标形态 查阅相关文献 平稳型 无规律波动型
14. 异常检测——指标分类 如 何 分 样本3000,训练集2200,测试集800 准确率95% 准确率(P) 周期型 无规律波动型 平稳型 整体 multi-svm 97.9% 0% 93.5% 74.5% one-svm agg 90.7% 45.6% 94.8% 44.1% 27.5% 32.6% 35.8% 21.6% 96.8% - - 81.4% agg+logistics 94.8% 73.9% 87.1% 87.7% CNN 98.7% 86% 96% 95% dbscan
15. 异常检测——模型构建 对周期型指标进行异常注入,然后标注正负样本,根据样本和设定特 征进行特征提取,并通过Xgboost进行训练输出检测模型,通过模型 对线上时序数据自动进行实时异常检测 ①异常注入 ②样本标注 ③特征提取 ④模型训练
16. 异常检测——模型构建 异常注入 问题:正负样本严重不均衡 解决:模拟故障发生时指标的表现,随机地注入异常数值,其中数值大小及异常范围均随机产生 构建样本耗时:30min —> 1min 样本数: 3000+ —> 80000+
17. 异常检测——模型构建 特征工程 • • 预测值残差不能很好表征指标异常情况 共需计算133个特征,且采用预测计算特征的 方式耗时高 提升泛化能力
18. 异常检测——模型构建 特征工程 Opprentice论文133个特征,精召率数据 模型 精确率 召回率 F1 周期型 0.9691 0.9504 0.9597 周期型测试集大小7.5K
19. 异常检测——实时检测 实时检测时,会先进入预检测流程,拦截绝大多数正常点,预检测异 常时,才执行特征提取,进入模型异常分类;同时分类结果通过反馈 机制可以增加到样本集,提高模型泛化能力和精召率
20. 异常检测——平台化建设 问题一:通过烟囱式进行模型训练 耦合高、效率低,无法快速迭代模 型,样本标注效率低下 问题二:对于异常检测过程,每次 调整需要重新部署,无法灵活、快 速的构建和动态调整
21. 异常检测——平台化建设
22. 异常检测——平台化建设 算法组件 流程参数 流程编排 样本标注 模型训练
23. 异常检测——平台化建设 Raptor统一监控大盘 配送 闪购 餐饮 住宿 优选 …… 外卖稳定性平台 Digger 智能客诉平台 支撑业务 周期型 7K+ 平稳型 5K+ 无规律 1K+ 到综CIA
24. 异常检测——检测效果 类型 无监督+有监督 无监督 模型 样本类别 精确率 召回率 F1 周期型模型 周期型 0.969 0.950 0.959 无规律模型 无规律波动型 0.975 0.952 0.958 平稳型模型 平稳型 0.964 0.933 0.948 织云 周期型 0.741 0.118 0.203 Donut 周期型 0.980 0.742 0.845 VAE 周期型 0.365 0.365 0.365
25. 目录 01 AIOps简介 02 美团AIOps体系介绍 03 故障发现探索与落地 04 更多探索
26. 更多探索 指标 关联 分析 告警 聚合 降噪 智能 变更
27. Q&A
28. 招聘:后端&算法开发岗位 北京&上海 更多技术干货 欢迎关注“美团技术团队” “码”上投简历 欢迎加入我们

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 02:28
浙ICP备14020137号-1 $Carte des visiteurs$