腾讯智研可观测体系建设实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 腾讯智研: 大规模可观测体系建设思考与实践 张越
2. • Content Title 1
3. 张 越 腾讯TEG基础架构部,智研可观测平台 随手记基础架构部,统一监控平台 工作介绍:我的工作主要围绕分布式系统、分布式可观 测和实时分析引擎技术。
4. Agenda 一 腾讯可观测平台背景和挑战 二 可观测平台建设思路 三 可观测平台技术实现 四 未来规划
5. Frequency vs Complexity
6. 「智研」一站式研发效能平台 代码库 脚本箱 腾讯软件源 TKEX-TEG 制品库 测试堂 交付流 监控宝 日志汇
7. 「智研」可观测平台业务挑战 观测主机: 百万级 日志条数: 万亿级/d 调用链路: 百亿级/d 观测服务: 万级 时间序列: 万亿级/d 告警规则: 十万+ 腾讯云 微信 微信支付 QQ音乐 QQ QQ空间 腾讯会议 腾讯视频
8. 垂直分治思路 从垂直角度分解:立体化 RUM 真实用户监控 Custom Metrics 业务监控 APM 应用性能监控 Deploy Tracking 发布追踪 Error Tracking 错误追踪 Log Service 日志服务 Host Map 主机分布 Container Monitoring 容器监控 Process Monitoring 进程监控
9. 水平分治思路 Container / Host Monitoring RUM Network Monitoring APM Error Tracking Custom Log Service Metrics Deploy Tracking
10. 收集、分析 和 链接 链接 业务 / 系统 应用 / 组件 容器 / 进程 代码行 根因 分析 RUM 真实用户监控 Custom Metrics 业务监控 Service Map 服务拓扑 APM 应用性能监控 Deploy Tracking 发布追踪 Infrastructure Metrics 基础监控 Host Map 主机分布 Container Monitoring 容器监控 Process Monitoring 进程监控 Log Service 日志服务 Error Tracking 错误追踪 Live Profiling 在线性能追踪 Event Integration 事件整合分析 Root-Cause Analytics 根因分析 设计思路 收集 CMDB 建设过程
11. 可观测体系的顶层设计
12. 可观测体系的演进思路 分治、谷仓效应与整合 APM Monitoring Logging Error Observability Platform RUM
13. 自研大规模时序引擎TSDB • 每分钟数十亿写入 • 每天数万亿存储 • 千万级查询 • P95延迟 < 1s • 数十个集群
14. TSDB存算分离架构 Cloud-Native Storage (CTSDB) • 关注点分离 • 更容易做到高可用 • 计算无状态 • 不需要搬迁数据 • 没有9副本问题 • Doc + Index 合并存储
15. TSDB存储设计 • Write-Ahead Log • Mainstream Master-slave • Sharding/Partition • Sequential write • Batch writing/reading • Memory buffering • Block compression • Scatter-Gather • Invert-Index • Pre-Aggregation • Result Caching
16. 为什么做可观测数据的关联
17. 以Trace为核心的关联设计 • 基于Tag关联 • 上报侧要求低 • 以Trace为入口
18. 引入Open-Telemetry
19. OPTL解放更多关联性 • 上报侧增强 • 产品独立关联增多 • Agent统一 • 补充Tag规范 • 借助社区力量
20. 数据关联的效果
21. 可信度:解决系统故障造成的误告 Flink 平台规模 • 数万个Task • 十万核级 • 多集群 • 多地域 Failover 切换经常发生 vs 不牺牲可靠性和实时性
22. 可信度实现结构 「关键点:如何保证Mark流经每一个可能的通路」
23. Mark传递逻辑 //Mark ADT { timestamp : 190000000, //时间戳,用于区分该Mark所处的统计周期 markID : U1393-G9E93-31J45, //唯一ID,代表该Mark是由哪个具体Task发出的 parallelism : 4 //并行度,代表生成该Mark的算子的并行度 } Mark 生成器 可信度 计算器
24. 可信度的实际案例 Task 意外终结 可信度随之下降 业务数据假掉底
25. 未来规划: 自动根因分析 时序异常检测 • N-Sigma • 箱线图检测 • 多项式回归 • HBOS • LOF Log/Error 异常检测 • 模式识别 • Log Reduce 事件关联 • 事件关联查询
26.
27.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-09 15:09
浙ICP备14020137号-1 $访客地图$