腾讯智研可观测体系建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 腾讯智研:
大规模可观测体系建设思考与实践
张越
2. •
Content Title 1
3. 张 越
腾讯TEG基础架构部,智研可观测平台
随手记基础架构部,统一监控平台
工作介绍:我的工作主要围绕分布式系统、分布式可观
测和实时分析引擎技术。
4. Agenda
一 腾讯可观测平台背景和挑战
二 可观测平台建设思路
三 可观测平台技术实现
四 未来规划
5. Frequency vs Complexity
6. 「智研」一站式研发效能平台
代码库
脚本箱
腾讯软件源
TKEX-TEG
制品库
测试堂
交付流
监控宝
日志汇
7. 「智研」可观测平台业务挑战
观测主机: 百万级 日志条数: 万亿级/d 调用链路: 百亿级/d
观测服务: 万级 时间序列: 万亿级/d 告警规则: 十万+
腾讯云
微信
微信支付
QQ音乐
QQ
QQ空间
腾讯会议
腾讯视频
8. 垂直分治思路
从垂直角度分解:立体化
RUM 真实用户监控
Custom Metrics
业务监控
APM 应用性能监控
Deploy Tracking 发布追踪
Error Tracking 错误追踪
Log Service 日志服务
Host Map 主机分布
Container Monitoring 容器监控
Process Monitoring 进程监控
9. 水平分治思路
Container / Host Monitoring
RUM
Network
Monitoring
APM
Error
Tracking
Custom
Log
Service Metrics
Deploy
Tracking
10. 收集、分析 和 链接
链接
业务 / 系统
应用 / 组件
容器 / 进程
代码行
根因
分析
RUM 真实用户监控
Custom Metrics 业务监控
Service Map 服务拓扑
APM 应用性能监控
Deploy Tracking 发布追踪
Infrastructure Metrics 基础监控
Host Map 主机分布
Container Monitoring 容器监控
Process Monitoring 进程监控
Log Service 日志服务
Error Tracking 错误追踪
Live Profiling 在线性能追踪
Event Integration 事件整合分析
Root-Cause Analytics 根因分析
设计思路
收集
CMDB
建设过程
11. 可观测体系的顶层设计
12. 可观测体系的演进思路
分治、谷仓效应与整合
APM
Monitoring
Logging
Error
Observability
Platform
RUM
13. 自研大规模时序引擎TSDB
• 每分钟数十亿写入
• 每天数万亿存储
• 千万级查询
• P95延迟 < 1s
• 数十个集群
14. TSDB存算分离架构
Cloud-Native Storage
(CTSDB)
• 关注点分离
• 更容易做到高可用
• 计算无状态
• 不需要搬迁数据
• 没有9副本问题
• Doc + Index 合并存储
15. TSDB存储设计
• Write-Ahead Log
• Mainstream Master-slave
• Sharding/Partition
• Sequential write
• Batch writing/reading
• Memory buffering
• Block compression
• Scatter-Gather
• Invert-Index
• Pre-Aggregation
• Result Caching
16. 为什么做可观测数据的关联
17. 以Trace为核心的关联设计
• 基于Tag关联
• 上报侧要求低
• 以Trace为入口
18. 引入Open-Telemetry
19. OPTL解放更多关联性
• 上报侧增强
• 产品独立关联增多
• Agent统一
• 补充Tag规范
• 借助社区力量
20. 数据关联的效果
21. 可信度:解决系统故障造成的误告
Flink 平台规模
• 数万个Task
• 十万核级
• 多集群
• 多地域
Failover 切换经常发生
vs
不牺牲可靠性和实时性
22. 可信度实现结构
「关键点:如何保证Mark流经每一个可能的通路」
23. Mark传递逻辑
//Mark ADT
{
timestamp : 190000000,
//时间戳,用于区分该Mark所处的统计周期
markID : U1393-G9E93-31J45, //唯一ID,代表该Mark是由哪个具体Task发出的
parallelism : 4
//并行度,代表生成该Mark的算子的并行度
}
Mark
生成器
可信度
计算器
24. 可信度的实际案例
Task 意外终结
可信度随之下降
业务数据假掉底
25. 未来规划: 自动根因分析
时序异常检测
• N-Sigma
• 箱线图检测
• 多项式回归
• HBOS
• LOF
Log/Error 异常检测
• 模式识别
• Log Reduce
事件关联
• 事件关联查询
26.
27.