货拉拉的智能监控实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 货拉拉的智能监控实践 演讲人:柯圣 全球敏捷运维峰会 广州站
2. 货拉拉的一些情况 业务量 基于云的 多语言、多框架 多种业务场景 全球敏捷运维峰会 广州站
3. 今天讲什么 一、AIOps 与智能监控 二、货拉拉的智能监控建设框架 三、货拉拉的智能监控实践 四、总结与展望 全球敏捷运维峰会 广州站
4. AIOps 与智能监控:几个名词 智能监控 AIOps 智能运维 Observability 可观测性 Monitoring 监控 Observability Monitoring 全球敏捷运维峰会 广州站 AIOPs
5. 监控领域大图 业务功能 观测 报警 应急处理 日常运营 数据要素 (MELT) 日志 Log 链路 Trace 指标 Metric 事件 Event 人员与组织 研发 + 运维 安全生产 团队 稳定性团队 老板 特性要求 准确 + 及时 自动 + 高效 动态 + 灵活 开放 + 稳定 全球敏捷运维峰会 广州站
6. 监控要解决什么问题? 系统有没有问题? 系统哪有问题? 应用 研发团队 运维团队 系统有什么问题? 智能 稳定性团队 系统稳定性 全球敏捷运维峰会 广州站 老板
7. 货拉拉的智能监控建设框架 数据 技术 “MELT” Metrics Log Event Trace 时间维度上 历史数据 实时数据 其他数据依赖 应用元数据 应用依赖数据 应用标签数据 机器资源、云…… 功能 收益 ` 可视化与集成 研发提效 统一化监控平台 开放监控数据 第三方平台集成 报警分析 降噪 聚合 变更 关联 趋势 预测 异常 检测 关联 检测 知识图谱 拓扑 展示 知识 生成 自然语言处理 文本 提取 文本 聚合 自动故障修复 自动健康检测 数据可视化 变更后检测 故障可视化 配置简单化 根因分析 故障聚合 应急处理 关联定位 操作建议提示 报警自动化 排障自动化 依赖分析 高危变更提醒 核心链路生成 报警模板 应用详情问答 报警运营 …… 全球敏捷运维峰会 广州站 日常运营 资源数据化 效能数据化 业务拓扑可视化
8. 今天讲什么 一、AIOps 与智能监控 二、货拉拉的智能监控建设框架 三、货拉拉的智能监控实践 四、总结与展望 全球敏捷运维峰会 广州站
9. 货拉拉的智能监控平台:Monitor 平台能力 指标监控 应用监控 中间件监控 端上监控 HTTP, SOA, Exception, JVM, MySQL, HBase, Kafka Kong, Gateway, DAL, Consul, Config Server Device, Version,Network, Error 机器监控 云平台监控 容器监控 CPU, Memory, Load, Disk IO, Net IO,TCP Ali Cloud Pod, Istio 链路监控 主流框架、中间件 日志监控 应用日志 报警 通用报警 报警触达 报警分发 云平台报警 阈值,同环比,数据缺失,动态阈值 电话,短信,邮件,飞书, PagerDuty 自定义报警组、应用绑定,团队绑定 条件分发 运维事件 平台推送 用户使用 HttpClient, OkHttp,Tomcat, Easyopen, MySQL, MyBatis,Kafka Client, AMQP, Spring Kakfa, Spring AMQP, Rabbit Trace, ES, Mongo, Hbase,… 访问日志 容器日志 开放所有监控数据 All-in-one 的一站式平台 UI 业务大盘,应用大盘,中间件大盘, 链路查看,日志查看 报警配置与查看 报警运营 全局实时看板 HTTP Trace SOA Trace 多平台 PC 飞书 移动设备 全球敏捷运维峰会 广州站 Open API 指标、监控、日志、报警、拓扑依赖……
10. 货拉拉的智能监控平台:Monitor 一览 业务大盘 应用大盘 全球敏捷运维峰会 广州站
11. 货拉拉的智能监控平台:Monitor 一览 调用链路 全球敏捷运维峰会 广州站 链路拓扑
12. 货拉拉的智能监控平台:Monitor 一览 报警配置与处理 全球敏捷运维峰会 广州站 移动版
13. 货拉拉的智能监控平台:Monitor 的一些数字 Metric 7T 1.45 万亿 总数据量 Trace Log Alert 其他 总数据点 23 T 70 万 每日新增数据 150 T 峰值TQS 300 万条 每日新增数据 每日峰值写入QPS 7000 + 25000 + 自定义报警规则 每日各渠道触达次数 600 + 每日UV 2.8 万 200 + 监控实例 查询API QPS 全球敏捷运维峰会 广州站
14. 货拉拉的智能监控平台:Monitor 背后的系统架构 Prometheus Client 推送 采集 采集 查询 Victoriametrics Prometheu s Transformation 查询 vm-proxy 更新报警配置 应 用 侧 写入 Trace SDK 字节码注入 查询 储存索引 转运 Log Filebeat Trace API Alert Graph DB HBase 储存原数据 消费 写入 LogStash AIOps API Consumer Elasticsearch 采集 Alert API 消费 Kafka Trace Service UI 推送报警 vm-alert 上报 Metrics API Consumer Kafka 查询 Elasticsearch 全球敏捷运维峰会 广州站 Log API Monitoring Data 监 控 平 台
15. 货拉拉的智能监控举例:统一的平台,流畅的排障体验 报警 指标 链路 日志 核心业务指标: 下降 15% App: order.pay Metric: soa.rt Value: timeout 下游依赖: commission.svc Config server: 报警触发 报警上关联服 务名与指标名 以指标查询链路 Invalid key “biz.ratio” 以 TraceId 查 询相关日志 指标中 Label 与 Trace 的 Endpoint 对应 全球敏捷运维峰会 广州站 变更 操作 变更: 5 分钟内更新了配置 人工判断变更 处理: 回滚配置 人工执行解决措施
16. 智能监控的建设框架:智能的报警(集成与应用) 线上故障 报警 核心业务指标: 下降 15% 飞书中 自动分析 报警应用自身 可能原因 检测变更 上下游分析 健康检测 全球敏捷运维峰会 广州站 变更? 下游?中间件? 缓存?DB? 建议 操作建议
17. 智能监控的建设框架:智能的报警(报警规则) 自动的 报警模板 QPS, RT Exception Http, SOA type JVM Infra 平滑算法 机器学习 Arima, ewma, Holt-winter xgboost 按间隔 按报警类型 聚合 GC, Thread, Heap 自适应的 阈值 CPU, MEM, DB, Redis, … 开发中 聚合、降噪 抑制 按应用 聚合 全球敏捷运维峰会 广州站
18. 智能监控的建设框架:智能的报警(报警规则) 规则层 全局模版 自定义模版 自定义规则 算法模型库 查询层 指标查询 元数据查询 算法层 平滑算法 无阈值检测 算法 数据缓存 样本库 训练器 波动算法 插值算法 算法中心 基础层 降噪 静默 消息发送 审计 全球敏捷运维峰会 广州站
19. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析 应用的本体设计 全球敏捷运维峰会 广州站
20. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析 部门与应用关系 人员与应用关系 全球敏捷运维峰会 广州站 应用调用依赖
21. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析 应用拓扑图 全球敏捷运维峰会 广州站 核心业务拓扑图
22. 总结与展望:稳定性成果 监控覆盖 故障响应 (5/20/25) 100% 100% (核心应用)监控 (核心应用)报警 覆盖率 覆盖率 99.98% 100% 服务可用性 5 分钟内发现 89% 20 分钟内定位 全球敏捷运维峰会 广州站 78% 25 分钟内止损
23. 货拉拉的智能监控举例:经验与反思 制定埋点规范、预留扩展性。 面向用户使用场景,屏蔽底层细节,简化配置。 文档与说明,提供排查工具。 价值与收益导向,合理取舍。 全球敏捷运维峰会 广州站
24. 今天讲什么 一、AIOps 与智能监控 二、货拉拉的智能监控建设框架 三、货拉拉的智能监控实践 四、总结与展望 全球敏捷运维峰会 广州站
25. 总结与展望:监控领域的规划 监控建设 战略选择 基于开源与云产品, 构建基本监控体系, 服务业务快速发展 监控架构 研发/ 运维 团队 云厂商 大厂(未来) 中厂(现在) 小厂(过去) 拥抱开源业界, 关键产品自研, 形成特色监控体系和完整产品 Grafana ELK Prometheus Skywalking Cloud 研发 部门 运维/ SRE Monitoring Platform TSDB Trace Log AIOps 深挖底层基础, 核心产品自研, 形成独特竞争力 研发 中心 SRE CMDB DevOps 多云 监控使命 补全监控缺失,快速迭代 云管平台 DevOps Multi Cloud 云/ 自建 全链路、全要素打通, 赋能研发效能与稳定性 全球敏捷运维峰会 广州站 Monitoring Platform Alert Platform Log Platform …… 自研 TSDB、Trace、Log …… AIOps Platform DevOps Platform 多数据中心 成为基础能力,赋能上层业务, 实现监控价值
26. THANK YOU ! 全球敏捷运维峰会 广州站

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 21:47
浙ICP备14020137号-1 $Map of visitor$