vivo服务端监控体系建设实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. vivo 服务端 监控体系建设实践 陈宁宁 | vivo互联网监控服务架构师
2. 监控体系 建设之道 监控服务 体系架构 可用性体系 构建与保障 行业变革下的 监控探索实践 及未来规划
3. 监控服务体系能力概览
4. 监控服务体系能力概览
5. 监控服务体系能力概览 监控对象 机房 监控范围 APP H5 WEB 机房 业务 业务自定义 算法平台 大数据平台 内容平台 环境 应用 接口调用 堆栈信息 异常日志 链路拓扑 语言 中间件 RabbitMQ ZooKeeper Dubbo Tars 平台能力 数据库 基础服务 主机 网络 MySQL Redis MongoDB ElasticSearch 域名 LVS Niginx DNS NTP CDN NAT VUA CPU 内存 交换分区 系统 网卡 Kernel 文件句柄 GPU 国内机房 海外机房 隔离区机房 生产 预发 测试 压测 开发 Java Go C++ Nodejs Python V消息 短信 电话 告警合并 告警认领 告警升级 恒值检测 突变检测 同比检测 无数据检测 智能检测 多指标检测 存储 降精度 后聚合 多维多指标 计算 预聚合 时序数据 统一计算 告警 检测 进程 快照 端口 风扇 物理机 虚拟机 云主机 容器 采集 流量分析 网络链路监控 主动上网 QoS 交互 SDK Agent 自定义看板 API采集 多数据源 Exporter采集 模板化
6. 监控服务体系能力概览 主要监控对象 覆盖率达 90000+ 70000+ 8700亿+ 主机实例 DB实例 日数据处理量 99.26% <60s 4500+ 45000+ 160000+ 域名 容器实例 日告警发送量 告警延迟 能力 覆盖 节点调整动态感知 实时生效 海量数据 实时计算 关键指标 >80% 告警召回率 数据来源:vivo
7. 监控服务体系能力概览 主机、容器监控设备众多 复杂的网络环境 复杂的部署环境 新业务场景对 传统解决方案形成挑战 公有云、私有云 混合云跨IDC部署 业务飞速发展研发时间紧 新技术组件试错成本高 海量指标数据计算存储 系统多而散 用户体验不强 数据割裂 没有融合统一 平台相互独立 用户排查问题难
8. 02 监控体系 建设之道 监控服务 体系架构 可用性体系 构建与保障 行业变革下的 监控探索实践 及未来规划
9. 监控服务体系产品架构 DashBoard 展 示 层 统一配置 场景层 功 能 层 正在告警 历史告警 采 集 能 力 指标采集 链路采集 日志采集 自定义采集 元数据管理 业务大盘 主机监控 监控概览 能 力 服 务 层 日志中心 容器监控 DashBorad 看板列表 服务看板 权限管理 数据源管理 数据集管理 检 测 能 力 检测算法 统一检测 多维检测 组合策略 关联事件 扩展收敛 移 动 运 维 巡检服务 DB监控 域名监控 元数据管理 告警管理 采集规则模板 采集规则管理 指标元数据 自定义指标 检测规则模板 检测规则管理 告警规则管理 告警屏蔽管理 告警合并管理 告 警 能 力 告警合并 告警升级 告警屏蔽 告警分级 告警模板 告警恢复 告 警 闭 环 能 力 故障定位 消息 拨测监控 应用监控 业务视图 可用性大盘 域名总览大屏 网络监控大屏 告警通知 告警标记 告警认领 告警转交 告警回调 AIOPS 客户端 配 置 能 力 智能检测 自定义监控 日志监控 链路监控 巡检服务 能力服务 全链路分析 巡检配置 巡检看板 巡检报告 告警能力服务 规则能力服务 指标能力服务 视图能力服务 日志分析 链路分析 指标分析 故障定位 采集规则配置 检测规则配置 告警规则配置 视图看板配置 巡检任务配置 看 板 能 力 看板嵌入 看板分享 多图表类型 自定义数据源 数 据 分 析 能 力 拓扑关系 关联分析 初因分析 根因分析 趋势预测
10. 监控服务体系技术架构 Dashboard 展示 应用层 可用性大盘 统一配置 服务层 移动运维 统一告警 告警接收 统一检测 智能检测 链路监控 巡检平台 主机监控 DB监控 容器监控 拨测监控 VGW监控 应用监控 自定义监控 宙斯系统 电话 邮件 短信 V消息 可视化 故障定位 域名监控 日志中心 存储 Prometheus监控 CMDB 存储层 计算层 计算 传输层 采集层 Bees-Bus API采集 SDK采集 OSS采集 脚本采集 拨侧采集 Exporter采集 日志采集 采集
11. 监控服务体系技术架构
12. 03 监控体系 建设之道 监控服务 体系架构 可用性体系 构建与保障 行业变革下的 监控探索实践 及未来规划
13. 监控产品如何服务于业务可用性
14. 监控产品如何服务于业务可用性
15. 监控产品如何服务于业务可用性 01 采集端多种维活机制,保障采集端服务存活 02 数据链路各个层级都有独立自监控体系,保障组 件可用性 03 基于双机房的部署架构,保障业务在出现异常时 能够快速切换,保障监控体系可用性 04 独立的自监控指标数据存储及第三方组件的配合 实现服务自监控,保障可用性
16. 复杂场景下依托监控解决问题手段 事件管理 故障管理 服务灾备 故障演练 任务管理 改进措施 压力测试 容量规划 复盘 改进 预防 演练 告警回调 手动 回调 自动 回调 回调 作业 平台 回调 URL 问题 解决 发现 问题 监控服务 体系 主机监控 DB监控 容器监控 拨测监控 域名监控 日志中心 VGW监控 应用监控 自定义监控 宙斯监控 问题 定位 故障 定位 链路 监控 指标 看板 日志 中心 可用性 大盘 告警 通告 告警发送 告警收敛 告警升级 通道升级 Prometheus监控 首次告警收敛 人员升级 告警检测 收敛策略 告警认领
17. 04 监控体系 建设之道 监控服务 体系架构 可用性体系 构建与保障 行业变革下的 监控探索实践 及未来规划
18. 云原生:Prometheus监控
19. AlOps:故障定位 在CMDB选择 要分析的项目节点 故障定位服务根据 项目节点下服务列 表查询链路数据中 平均响应时间
20. 可观测性:可用性大盘
21. 未来规划 告警与故障 定位串联 告警 故障定位 告警记录与 故障管理平台串联 场景串联 指标与 CMDB串联 指标 CMDB 告警记录 故障管理平台
22. 未来规划 一元场景 统一可观测平台 指标 可聚合的 逻辑计量单元 指标 日志 对离散的不连续的 事件的一种记录 日志 指标 通过日志获得指标数据 追踪 请求 范围内 可聚合的事件 追踪 请求范围 单次请求范围内的所有信息、 即调用链信息 转化场景 可聚合 请求 范围内 的事件 追踪 指标 通过调用链的分析获得调用 范围内的指标 日志 事件记录 日志 追踪 通过对日志的聚合和转化得到追踪 日志 指标 追踪 故障 多个源头 产生的故障 二元场景 日志 可聚合/分解的事件 指标 日志 追踪 一个调用周期内的事件 追踪 指标 一个调用周期内的指标
23. 未来规划 能力服务化 CICD DaaS 指标能力 图表能力 VHS 告警能力 规则能力 业务平台 检测能力
24.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-17 04:39
浙ICP备14020137号-1 $Map of visitor$