货拉拉的智能监控实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 货拉拉的智能监控实践
演讲人:柯圣
全球敏捷运维峰会 广州站
2. 货拉拉的一些情况
业务量
基于云的
多语言、多框架
多种业务场景
全球敏捷运维峰会 广州站
3. 今天讲什么
一、AIOps 与智能监控
二、货拉拉的智能监控建设框架
三、货拉拉的智能监控实践
四、总结与展望
全球敏捷运维峰会 广州站
4. AIOps 与智能监控:几个名词
智能监控
AIOps
智能运维
Observability
可观测性
Monitoring
监控
Observability
Monitoring
全球敏捷运维峰会 广州站
AIOPs
5. 监控领域大图
业务功能 观测 报警 应急处理 日常运营
数据要素
(MELT) 日志 Log 链路 Trace 指标 Metric 事件 Event
人员与组织 研发 + 运维 安全生产
团队 稳定性团队 老板
特性要求 准确 + 及时 自动 + 高效 动态 + 灵活 开放 + 稳定
全球敏捷运维峰会 广州站
6. 监控要解决什么问题?
系统有没有问题?
系统哪有问题?
应用
研发团队
运维团队
系统有什么问题?
智能
稳定性团队
系统稳定性
全球敏捷运维峰会 广州站
老板
7. 货拉拉的智能监控建设框架
数据
技术
“MELT”
Metrics
Log
Event
Trace
时间维度上
历史数据
实时数据
其他数据依赖
应用元数据
应用依赖数据
应用标签数据
机器资源、云……
功能
收益
`
可视化与集成
研发提效
统一化监控平台
开放监控数据
第三方平台集成
报警分析
降噪 聚合
变更
关联 趋势
预测
异常
检测 关联
检测
知识图谱
拓扑
展示
知识
生成
自然语言处理
文本
提取
文本
聚合
自动故障修复 自动健康检测 数据可视化
变更后检测 故障可视化 配置简单化
根因分析 故障聚合 应急处理
关联定位 操作建议提示
报警自动化
排障自动化
依赖分析 高危变更提醒
核心链路生成 报警模板
应用详情问答 报警运营
……
全球敏捷运维峰会 广州站
日常运营
资源数据化
效能数据化
业务拓扑可视化
8. 今天讲什么
一、AIOps 与智能监控
二、货拉拉的智能监控建设框架
三、货拉拉的智能监控实践
四、总结与展望
全球敏捷运维峰会 广州站
9. 货拉拉的智能监控平台:Monitor 平台能力
指标监控
应用监控 中间件监控 端上监控
HTTP, SOA, Exception, JVM, MySQL, HBase,
Kafka Kong, Gateway, DAL, Consul, Config Server Device, Version,Network, Error
机器监控 云平台监控 容器监控
CPU, Memory, Load, Disk IO, Net IO,TCP Ali Cloud Pod, Istio
链路监控 主流框架、中间件 日志监控 应用日志 报警 通用报警 报警触达 报警分发 云平台报警
阈值,同环比,数据缺失,动态阈值 电话,短信,邮件,飞书,
PagerDuty 自定义报警组、应用绑定,团队绑定
条件分发 运维事件
平台推送
用户使用
HttpClient, OkHttp,Tomcat, Easyopen, MySQL, MyBatis,Kafka Client, AMQP, Spring Kakfa, Spring AMQP,
Rabbit Trace, ES, Mongo, Hbase,…
访问日志
容器日志
开放所有监控数据
All-in-one 的一站式平台
UI
业务大盘,应用大盘,中间件大盘,
链路查看,日志查看
报警配置与查看
报警运营
全局实时看板
HTTP Trace SOA Trace
多平台
PC
飞书
移动设备
全球敏捷运维峰会 广州站
Open API
指标、监控、日志、报警、拓扑依赖……
10. 货拉拉的智能监控平台:Monitor 一览
业务大盘
应用大盘
全球敏捷运维峰会 广州站
11. 货拉拉的智能监控平台:Monitor 一览
调用链路
全球敏捷运维峰会 广州站
链路拓扑
12. 货拉拉的智能监控平台:Monitor 一览
报警配置与处理
全球敏捷运维峰会 广州站
移动版
13. 货拉拉的智能监控平台:Monitor 的一些数字
Metric
7T
1.45 万亿
总数据量
Trace
Log
Alert
其他
总数据点
23 T
70 万
每日新增数据
150 T
峰值TQS
300 万条
每日新增数据 每日峰值写入QPS
7000 +
25000 +
自定义报警规则 每日各渠道触达次数
600 +
每日UV
2.8 万
200 +
监控实例 查询API QPS
全球敏捷运维峰会 广州站
14. 货拉拉的智能监控平台:Monitor 背后的系统架构
Prometheus
Client
推送
采集
采集
查询
Victoriametrics
Prometheu
s
Transformation
查询
vm-proxy
更新报警配置
应
用
侧
写入
Trace SDK
字节码注入
查询
储存索引
转运
Log
Filebeat
Trace API
Alert
Graph DB
HBase
储存原数据
消费
写入
LogStash
AIOps API
Consumer
Elasticsearch
采集
Alert API
消费
Kafka
Trace
Service
UI
推送报警
vm-alert
上报
Metrics API
Consumer
Kafka
查询
Elasticsearch
全球敏捷运维峰会 广州站
Log API
Monitoring
Data
监
控
平
台
15. 货拉拉的智能监控举例:统一的平台,流畅的排障体验
报警 指标 链路 日志
核心业务指标:
下降 15% App: order.pay
Metric: soa.rt
Value: timeout 下游依赖:
commission.svc Config server:
报警触发
报警上关联服
务名与指标名
以指标查询链路
Invalid key
“biz.ratio”
以 TraceId 查
询相关日志
指标中 Label 与
Trace 的 Endpoint
对应
全球敏捷运维峰会 广州站
变更
操作
变更:
5 分钟内更新了配置
人工判断变更
处理:
回滚配置
人工执行解决措施
16. 智能监控的建设框架:智能的报警(集成与应用)
线上故障
报警
核心业务指标:
下降 15%
飞书中
自动分析
报警应用自身
可能原因
检测变更
上下游分析
健康检测
全球敏捷运维峰会 广州站
变更?
下游?中间件?
缓存?DB?
建议
操作建议
17. 智能监控的建设框架:智能的报警(报警规则)
自动的
报警模板
QPS, RT Exception
Http, SOA type
JVM Infra
平滑算法 机器学习
Arima, ewma,
Holt-winter xgboost
按间隔 按报警类型
聚合
GC, Thread,
Heap
自适应的
阈值
CPU, MEM, DB,
Redis, …
开发中
聚合、降噪 抑制
按应用
聚合
全球敏捷运维峰会 广州站
18. 智能监控的建设框架:智能的报警(报警规则)
规则层 全局模版
自定义模版
自定义规则
算法模型库
查询层 指标查询 元数据查询
算法层 平滑算法 无阈值检测
算法
数据缓存
样本库
训练器
波动算法
插值算法
算法中心
基础层
降噪
静默
消息发送
审计
全球敏捷运维峰会 广州站
19. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析
应用的本体设计
全球敏捷运维峰会 广州站
20. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析
部门与应用关系
人员与应用关系
全球敏捷运维峰会 广州站
应用调用依赖
21. 货拉拉的智能监控举例:关键业务链路的拓扑展示与分析
应用拓扑图
全球敏捷运维峰会 广州站
核心业务拓扑图
22. 总结与展望:稳定性成果
监控覆盖
故障响应
(5/20/25)
100%
100%
(核心应用)监控 (核心应用)报警
覆盖率 覆盖率
99.98% 100%
服务可用性 5 分钟内发现
89%
20 分钟内定位
全球敏捷运维峰会 广州站
78%
25 分钟内止损
23. 货拉拉的智能监控举例:经验与反思
制定埋点规范、预留扩展性。
面向用户使用场景,屏蔽底层细节,简化配置。
文档与说明,提供排查工具。
价值与收益导向,合理取舍。
全球敏捷运维峰会 广州站
24. 今天讲什么
一、AIOps 与智能监控
二、货拉拉的智能监控建设框架
三、货拉拉的智能监控实践
四、总结与展望
全球敏捷运维峰会 广州站
25. 总结与展望:监控领域的规划
监控建设
战略选择 基于开源与云产品,
构建基本监控体系,
服务业务快速发展
监控架构 研发/
运维
团队
云厂商
大厂(未来)
中厂(现在)
小厂(过去)
拥抱开源业界,
关键产品自研,
形成特色监控体系和完整产品
Grafana ELK
Prometheus Skywalking
Cloud
研发
部门
运维/
SRE
Monitoring
Platform
TSDB Trace
Log AIOps
深挖底层基础,
核心产品自研,
形成独特竞争力
研发
中心
SRE
CMDB
DevOps
多云
监控使命
补全监控缺失,快速迭代
云管平台 DevOps
Multi Cloud 云/
自建
全链路、全要素打通,
赋能研发效能与稳定性
全球敏捷运维峰会 广州站
Monitoring
Platform Alert
Platform
Log
Platform ……
自研 TSDB、Trace、Log
……
AIOps
Platform
DevOps
Platform
多数据中心
成为基础能力,赋能上层业务,
实现监控价值
26. THANK YOU !
全球敏捷运维峰会 广州站