拒绝孤岛-可观测数据融合分析

如果无法正常显示，请先停止浏览器的去广告插件。

1. 拒绝孤岛可观测数据融合分析张城（元乙）-阿里云

3. IT系统的可观测 • 系统更加复杂 • 开发涉及更多的人 • 运行环境多种多样开发模式系统架构部署模式基础设施

4. 可观测挑战计算节点数技术依赖微服务大量开源软件、SaaS 容器少量技术虚拟机物理机单一异构/云发布频率静态动态参与人数一天一次 DevOp s 一年一次瀑布 Ops 按需发布敏捷单兵 DevSecOp s DevSecBusO ps 协同

5. 什么是成熟的可观测方案自动发现一套工具全栈数据统一海量存储数据关联分析服务自动发现客户端到服务端减少跳转上下文缺失超大规模写入完备分析语法基础设施自动化基础设施到应用降低体验割裂长期存储友好跨多种数据源自动生成服务拓扑 IT、商业、Sec… 学习代价低易上手 Log/Trace/Metric统一大规模分析能力丰富的上下文实时性高基数部分智能化统一存储关联Meta/CMDB 产生到可见秒级问题来源于细节告警收敛实时分析服务/交易上下文快速返回查询结果尽可能保留原始数据基础的异常检测融合分析数据上下文实时的告警能力数据记录更多维度基础的根因分析智能化

6. 可观测数据分析发展历程多套系统统一可视化统一存储分析 Metric Trace Log Jaeger Grafana Kibana Loki Tempo SLS Mimir Grafana 观测数据采集降低跳转代价降低维护代价数据都能用上统一Meta数据统一分析语言更快、更便捷、更有效的观测数据价值挖掘：数据融合分析

7. 可观测数据融合分析用户行为分析监控访问日志 Profiling Android Login Logout IOS Payments Crash CMDB Network Logs Metrics 用户DB 问题定位登录日志攻击检测 Network Packet Configs UserInfo Access Log PerfCounter 反作弊 Syslog 变更管理 Traces Profiling CMDB DB ML模型 … Event Command Binlog Orders Tracing Error Log Web Access Audit Log Profiling Ping Clouds OpenFile

8. 技术难点与挑战统一海量存储 PB级规模数据关联分析同类数据源关联跨数据源关联实时性端到端秒级可见交互式分析能力高基数多维度数据分析内存压力统一的存储引擎应对突增的写入兼顾完备性与易用性兼顾实时性与性能超大规模存储成本

9. SLS可观测技术架构 SLS可观测统一平台架构全栈监控智能算法与编排多种类功能丰富可定制异常检测时序预测文本聚类多维分析根因定位打标反馈仪表盘可视化嵌入 Trace 实时数据流转与分析交互式 PB级 300+源易用性稳定性无侵入高性能自动扩容消耗低实时消费 SQL PromQL 独享计算数据加工调度引擎融合分析数据导出 MetricStore 冷热分离全栈数据采集日志指标 Trace Cloud Lens RUM 可观测统一存储引擎 LogStore 移动端监控 Event 成本管家日志审计 …

10. 数据融合分析核心架构 Tag局部访问数据特性正排 Metrics OpenAPI M 关键词随机过滤倒排 Logs/Traces L/T 列存聚合分析 Query&Analysis Engine Put& Pull 访问偏好分析诉求面向未来写多读少 Query Engine SQL Engine Scheduler PromQL Engine Batch写后台Compaction SLS Worker 近期数据访问频繁语法简洁&完备性弹性分析能力冷热分层 Query 多层缓存 PromQL 分布式执行 SQL Data Indexing Data Management MetricStore Archive Manager Retention Manager LogStore Cache Manager Compaction Manager FIFO Queue 负载均衡 OSS Pangu 可扩展能力计算存储分离无状态数据流水平扩展控制流带状态

11. 统一的存储引擎 Sort By Event Time Sort By PK（MetricName Labels） Inverted Index Logs Traces LogStore MetricStore Column Oriented Compaction Sort By Arrive Time FIFO Binlog Logs协议 Traces协议 Metrics Metrics协议其他协议

12. 融合分析引擎 Pull、Search、 PromQL、SQL、 Pipeline … SLS Query Proxy SLS Meta Service SQL Coordinator OpenAPI 、JDBC 、 HTTPS、Grafana、 Tableau… SQL Worker SQL Worker SQL Worker SQL Worker Scale Up/Down Sorted Key过滤关键词过滤 PromQL结果 SLS Prometheus Prometheus Query Engine SLS TimeSeries Storage LogStore MetricStore MySQL Presto Connectors OSS …

13. 融合分析示例 level: error and content : pay not source : 11.120.30.40 关键词查询 level: error and content : pay | select source, count(1) as total from log group by source order by total desc 关键词查询 SQL PromQL SQL select time, value, instance from ( select promql_query_range(‘avg by (instance) (irate(node_cpu_seconds_total{}[5m])’) from metrics ) a join cmdb b on a.instance = b.hostname and b.region = ‘shanghai’ select ts_predicate (time, value) as tsVal, instance, region from( select a.time as time, a.value as value, a.instance as instance, b.region as region from( select promql_query_range(‘avg by (instance) (rate( node_cpu_seconds_total {mode=~“system”}[5m]))’ from metrics ) a join cmdb b on a.instance = b.hostname) where instance in (select distinct source as instance from access_log where level = ‘error’ and content like ‘%pay%’)) CPU System指标关联Region信息 MetricStore CMDB 过滤日志中出现错误的机器 LogStore SQL PromQL 关键词查询应用时序异常检测算法 ML模型 ML模型 CMDB

14. 当可观测执行到一定程度后系统中有哪些观测数据数据到底是什么样的每种数据存储在哪里数据的特性是什么各类数据之间怎么关联如何观测你的可观测数据？

15. 数据表达-观测可观测数据实体/Resource 关联的数据可观测数据的类型与关系 Traces TraceContext 错误传播路径 Deploy1 触发 IP Logs User1 发布 Region Pod TraceID CICD Job 1 Image Access Log Metrics Resource 实体/Resource之间的关系 K8s Audit Log Pod Base Metrics Pod Event Pod Meta 实例关联问题根因依赖 SpanID 可观测数据中的实体与关系 Image1 依赖 Service Trace Code Repo 1 GitLab Access Log Pod1 运行在 Service A Service B 运行在 Pod2 Mongo A Service C 调用 Redis A MySQL A ？发现问题 Pod App Metrics Pod App Access Logs Pod App Error Logs Node1 Node Metrics VPC1

16. 案例1：SLS可观测建设实践 SLS全球化集群 SLS智能观测平台负载均衡、自动扩容、机器下线、故障隔离 SLS可观测数据存储全球化大盘集群稳定性大盘计费稳定性大盘营收分析大盘重保客户大盘 SLS Admin Project SLS服务监控与问题排查全量可观测数据依赖服务预聚和全球同步基础设施 cn-beijing … SLS Admin Global Project 聚合/重要可观测数据预聚和全球同步 SLS服务依赖服务 • • • • • 账单数据计费计量用户SLA数据集群水位核心稳定性指标 • • • • • • • • • • • 用户访问日志查询明细日志各类应用日志各类应用指标全链路Trace K8s 系统指标 K8s 组件日志 K8s 审计日志 K8s 事件物理机指标物理机Syslog 基础设施监控集群水位监控 Agent稳定性监控 SLS服务监控异常查询分析用户行为分析访问日志分析数据自定义分析智能告警与诊断智能异常告警智能发布管理异常根因定位集群资源预测数据采集诊断查询异常诊断计量计费诊断消费延迟诊断 SLS Admin Project 基础设施全量可观测数据 us-west-1 DevOps 运维、发布、应急处理产品运营架构师技术支持

17. 案例2：多端全链路融合可观测全链路观测数据应用平台服务端 • • • • 车机 APP APP 遥控打开空调 … 服务端 OTA升级派发 … 车机驾驶员操作 … 异步发送断点续传弱网优化全球加速全链路排查自定义统计多端监控大盘工单自助排查告警通知交互行为回放多版本对比根因定位服务端Bug 手机无信号云端MQ丢消息功能禁用 DNS劫持车机无信号车机升级中车机未启动车机Bug 协议不匹配 APP Bug 身份验证失败

18. 案例3：基于SQL进行指标治理 (*)| select a as "LabelKey", approx_distinct(b) as "唯一数", count(1) as "总数", arbitrary(b) as "LabelValue采样" from ( SELECT a, b FROM "sls-mall-k8s-metrics.prom", UNNEST(split_to_map(__labels__, '|', '#$#')) AS t(a, b) where __name__ != '' and regexp_like(__name__, '.*') ) group by a order by "唯一数" desc

19. 案例4-1：多数据类型关联分析

20. 案例4-2：带状态的流式异常检测

21. 可观测成熟度模型自动化观测预测&提升故障预测 IT可观测定位/修复建议监控数据查询自动故障发现服务健康度大盘自动根因定位减少故障间隔MTBF 全类型数据故障根因分析持续改进能力监控数据统一存储管理系统稳定性提升监控大盘实时查询能力告警系统 L1 L2 L3 L4 L5

22. 谢谢 Q&A