vivo服务端监控体系建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. vivo 服务端
监控体系建设实践
陈宁宁 | vivo互联网监控服务架构师
2. 监控体系
建设之道
监控服务
体系架构
可用性体系
构建与保障
行业变革下的
监控探索实践
及未来规划
3. 监控服务体系能力概览
4. 监控服务体系能力概览
5. 监控服务体系能力概览
监控对象
机房
监控范围
APP
H5
WEB
机房
业务 业务自定义 算法平台 大数据平台 内容平台 环境
应用 接口调用 堆栈信息 异常日志 链路拓扑 语言
中间件 RabbitMQ ZooKeeper Dubbo Tars 平台能力
数据库
基础服务
主机
网络
MySQL Redis MongoDB ElasticSearch
域名 LVS Niginx DNS
NTP CDN NAT VUA
CPU 内存 交换分区 系统
网卡 Kernel 文件句柄 GPU
国内机房
海外机房
隔离区机房
生产 预发 测试 压测 开发
Java Go C++ Nodejs Python
V消息 短信 电话
告警合并 告警认领 告警升级
恒值检测 突变检测 同比检测
无数据检测 智能检测 多指标检测
存储 降精度 后聚合 多维多指标
计算 预聚合 时序数据 统一计算
告警
检测
进程 快照 端口 风扇 物理机 虚拟机 云主机 容器 采集
流量分析 网络链路监控 主动上网 QoS 交互
SDK
Agent
自定义看板
API采集
多数据源
Exporter采集
模板化
6. 监控服务体系能力概览
主要监控对象
覆盖率达
90000+ 70000+ 8700亿+
主机实例 DB实例 日数据处理量
99.26%
<60s
4500+ 45000+ 160000+
域名 容器实例 日告警发送量
告警延迟
能力
覆盖
节点调整动态感知
实时生效
海量数据
实时计算
关键指标
>80%
告警召回率
数据来源:vivo
7. 监控服务体系能力概览
主机、容器监控设备众多
复杂的网络环境
复杂的部署环境 新业务场景对
传统解决方案形成挑战
公有云、私有云
混合云跨IDC部署 业务飞速发展研发时间紧
新技术组件试错成本高
海量指标数据计算存储
系统多而散
用户体验不强
数据割裂
没有融合统一
平台相互独立
用户排查问题难
8. 02
监控体系
建设之道
监控服务
体系架构
可用性体系
构建与保障
行业变革下的
监控探索实践
及未来规划
9. 监控服务体系产品架构
DashBoard
展
示
层
统一配置
场景层
功
能
层
正在告警
历史告警
采
集
能
力
指标采集
链路采集
日志采集
自定义采集
元数据管理
业务大盘
主机监控
监控概览
能
力
服
务
层
日志中心
容器监控
DashBorad
看板列表
服务看板
权限管理
数据源管理
数据集管理
检
测
能
力
检测算法
统一检测
多维检测
组合策略
关联事件
扩展收敛
移
动
运
维
巡检服务
DB监控
域名监控
元数据管理 告警管理
采集规则模板
采集规则管理
指标元数据
自定义指标 检测规则模板
检测规则管理
告警规则管理
告警屏蔽管理
告警合并管理
告
警
能
力
告警合并
告警升级
告警屏蔽
告警分级
告警模板
告警恢复
告
警
闭
环
能
力
故障定位
消息
拨测监控
应用监控
业务视图
可用性大盘
域名总览大屏
网络监控大屏
告警通知
告警标记
告警认领
告警转交
告警回调
AIOPS
客户端
配
置
能
力
智能检测
自定义监控
日志监控
链路监控
巡检服务 能力服务 全链路分析
巡检配置
巡检看板
巡检报告 告警能力服务
规则能力服务
指标能力服务
视图能力服务 日志分析
链路分析
指标分析
故障定位
采集规则配置
检测规则配置
告警规则配置
视图看板配置
巡检任务配置
看
板
能
力
看板嵌入
看板分享
多图表类型
自定义数据源
数
据
分
析
能
力
拓扑关系
关联分析
初因分析
根因分析
趋势预测
10. 监控服务体系技术架构
Dashboard
展示
应用层
可用性大盘
统一配置
服务层
移动运维
统一告警
告警接收
统一检测 智能检测
链路监控
巡检平台
主机监控 DB监控 容器监控 拨测监控
VGW监控 应用监控 自定义监控 宙斯系统
电话 邮件
短信 V消息
可视化
故障定位
域名监控
日志中心
存储
Prometheus监控
CMDB
存储层
计算层
计算
传输层
采集层
Bees-Bus
API采集
SDK采集
OSS采集
脚本采集
拨侧采集
Exporter采集
日志采集
采集
11. 监控服务体系技术架构
12. 03
监控体系
建设之道
监控服务
体系架构
可用性体系
构建与保障
行业变革下的
监控探索实践
及未来规划
13. 监控产品如何服务于业务可用性
14. 监控产品如何服务于业务可用性
15. 监控产品如何服务于业务可用性
01 采集端多种维活机制,保障采集端服务存活
02 数据链路各个层级都有独立自监控体系,保障组
件可用性
03 基于双机房的部署架构,保障业务在出现异常时
能够快速切换,保障监控体系可用性
04 独立的自监控指标数据存储及第三方组件的配合
实现服务自监控,保障可用性
16. 复杂场景下依托监控解决问题手段
事件管理 故障管理 服务灾备 故障演练
任务管理 改进措施 压力测试 容量规划
复盘
改进
预防
演练
告警回调
手动
回调
自动
回调
回调
作业
平台
回调
URL
问题
解决
发现
问题
监控服务
体系
主机监控 DB监控 容器监控
拨测监控 域名监控 日志中心
VGW监控 应用监控 自定义监控
宙斯监控
问题
定位
故障
定位
链路
监控
指标
看板
日志
中心
可用性
大盘
告警
通告
告警发送 告警收敛
告警升级 通道升级
Prometheus监控
首次告警收敛
人员升级
告警检测
收敛策略
告警认领
17. 04
监控体系
建设之道
监控服务
体系架构
可用性体系
构建与保障
行业变革下的
监控探索实践
及未来规划
18. 云原生:Prometheus监控
19. AlOps:故障定位
在CMDB选择
要分析的项目节点
故障定位服务根据
项目节点下服务列
表查询链路数据中
平均响应时间
20. 可观测性:可用性大盘
21. 未来规划
告警与故障
定位串联
告警
故障定位
告警记录与
故障管理平台串联
场景串联
指标与
CMDB串联
指标
CMDB
告警记录
故障管理平台
22. 未来规划
一元场景
统一可观测平台
指标
可聚合的
逻辑计量单元
指标
日志
对离散的不连续的
事件的一种记录
日志
指标
通过日志获得指标数据
追踪
请求
范围内
可聚合的事件
追踪
请求范围
单次请求范围内的所有信息、
即调用链信息
转化场景
可聚合
请求
范围内
的事件
追踪
指标
通过调用链的分析获得调用
范围内的指标
日志
事件记录
日志
追踪
通过对日志的聚合和转化得到追踪
日志
指标
追踪
故障
多个源头
产生的故障
二元场景
日志
可聚合/分解的事件
指标
日志
追踪
一个调用周期内的事件
追踪
指标
一个调用周期内的指标
23. 未来规划
能力服务化
CICD
DaaS
指标能力
图表能力
VHS
告警能力
规则能力
业务平台
检测能力
24.