基于OTel的移动端全链路Trace建设思考和实践

如果无法正常显示，请先停止浏览器的去广告插件。

1. 基于OTel的移动端全链路 Trace建设思考和实践高玉龙（元泊）阿里巴巴-阿里云高级开发工程师

2. 目录 01 1. 背景介绍 02 2. 解决思路 03 3. 方案介绍 04 4. 总结

4. 背景介绍研发人员 2个人 1000个人代码行数 5000行 100万架构规模 10个模块 100+模块发布频率一个月修复时间 1个小时产品成熟度一周 5个小时 Ø 研发过程变化大 Ø 问题难以复现和排查

5. 为什么很难复现 01 多端日志不统一统一数据采集标准 Android、iOS、微服务等多端日志协议不统一，日志分析难 02 端侧数据采集难平台、框架无关，统一采集能力调用链路复杂、模块多，技术框架不同；代码隔离，模块间状态传递频繁；解决思路设备碎片化，网络环境复杂 03 多系统数据关联难不同框架、系统的数据获取难；数据上下文自动关联数据分析缺少上下文信息，数据关联难 04 确定问题难模块、系统依赖多，复现问题难；对应域的同学多人排查，人肉运维成本高领域经验沉淀，自动化经验分析

6. 统一数据采集标准业务现状行业方案解法 n 数据采集没有统一的规范 n 协议/数据类型不统一 Ø 各个端基于OTel协议统一实现 n 跨端/跨系统日志分析难 n 方案之间难以兼容/互通 Ø 基于OTel协议统一存储、处理、分析移动端应用端 SDK 研发框架 Android iOS Middleware Serverless Container PAAS 统一采集 l l l l 跨语言规范 API / SDK Exporters Collectors 统一协议 SLS 存储、处理、分析

7. 端侧数据采集的难点数据串联难性能保障难不丢数据难 l 框架多，模块多，业务差异大 l 40+ 系统版本 l App崩溃、OOM、非优雅退出 l 线程/协程，完全异步调用 l 10000+ 机型 l 全球 150 + 电信运营商 l 可观测数据源多 l 跨洋数据传输，链路质量波动，劫持

8. 端侧数据串联的难点业务链路网络质量研发框架性能接口访问更多数据 u 可观测数据来源多 u 研发框架技术能力对外黑盒共性问题可观测数据来源 1. 三方框架数据如何采集、串联？ method XXX 线程B 2. 不同可观测数据如何串联？ method YYY 3. 线程/协程如何自动串联？异步 method B 同步 method A async/ await method D 协程线程C 线程A 同步/异步调用形式 u 端侧业务链路完全异步调用 u 异步调用方式多样化

9. 端侧数据自动串联方案协程调度器协程挂起协程恢复最终数据根节点 trace协议 Android 更新上下文子节点线程栈上下文 Parent Span + activeSpan + trace_id + span_id Scope + parent_id 上下文 Child Span + activeSpan + trace_id + span_id + parent_id iOS 1. 协程/线程内自动关联 activity_create 线程 1 activity_scope_enter 线程 n 2. 支持多层级嵌套线程 m 协程协程协程 activity_scope_leave

10. 三方框架数据采集和串联业内常见做法效果 1. 拦截过滤器、Hook 2. 其他扩展方式或不支持扩展库 Fresco Picasso 上下文管理共性问题 OkHttp3 Ø 上下文自动关联 Ø 埋点完全生效 Ø 业务代码侵入性低扩展库Api 示例：OkHttp3字节码插桩 1. 埋点不完全 2. 需要侵入业务代码 InsnList inject newCall(Lokhttp3/Request;)Lokhttp3/Call; VarInsn ClassReader FieldInsn MethodInsn ASM + Transform Api 方法名: ClassWriter 方法开始位置插入： LabelNode; VarInsnNode(ALOAD, 1); MethodInsnNode(); VarInsnNode(ASTORE, 1); 字节码插桩 .class Files .dex Files

11. 如何确保性能内存上限管理数据结构优化动态内存管理协议直接拼装减少内存开辟文件连续写文件上限管理 Ring File 发送成功日志发送 pos cp log 减少内存复制 1. 内存受限，频繁GC，易OOM 2. 频繁协议化，系统占用高 3. 数据离线缓存 I/O 负载 4. 端碎片化，多端性能不一致聚合写断点保存缓存清理文件缓存管理协议过程优化性能影响因素内存空间复用内存管理 addLog 写入数据动态字符串核心收益吞吐量提升2倍 CPU最高降低60% 内存最高降低50% C内核实现，多平台性能一致

12. 如何确保日志不丢失应用生命周期不可控网络延时高，抖动大 l 应用非优雅退出 l 运营商网络环境复杂，网络劫持问题 l 设备掉电，异常重启 l 偏远地区、跨洋数据传输，链路质量波动 WAL(预写日志) 数据落盘写数据异常重启 Sender 内存缓存缓存管理 .data 数据聚合断点恢复断点管理 .idx lz4压缩重试策略边缘节点就近接入 SLS 自建网络加速通道发送效果断点更新 lz4 数据包体积下降2.1倍 QPS提升13倍发送成功率99.3% 网络延时下降50%

13. 多系统数据关联处理用户访问崩溃、性能接口访问更多数据源问题 1. 数据量大，多系统数据不好关联 2. 设备ID、App版本等不同维度如何进一步分析解法 1. 多系统数据统一存储，上下文自动关联处理 2. 拓扑处理，指标预计算数据源用户访问网络质量 span1 崩溃、性能 span2 业务数据 span3 父节点处理节点规整空根节点子节点Map 映射父节点子节点排序 parentId span4 OT 协议非空不存在 SLS 统一存储虚拟节点处理节点生成

14. 多系统数据拓扑生成挑战解法 Trace数据规模往往比较大，时效性要求高，怎么做？ 1. 流处理 join 耗时高，把流处理问题转为批处理问题 2. 中间态最大化价值数据源 Map阶段 A: span2 span3 span4 分钟级 traceID spanID parentID 相等相等 A": traceID ... spanID parentID ... 转换最终产物 Combine阶段中间产物确定边信息 span1 系统视角链路视角边信息未匹配 traceID traceID spanID spanID parentID parentID 指标信息 resource 边信息中间产物指标信息 ... M 1 M 2 依赖信息 M n 资源信息 SLS 数据合并计数统计延时指标数据合并百分位计数统计延时指标百分位

15. 自动化问题根因定位探索业务 1 B C B E service service service service service name name name name name E F V m 聚类分析根因定位层次聚类图算法由底向上找5 个节点聚类 latency latency latency latency latency status status status status status 异常Trace 异常Trace 异常Trace V n d b e f 异常Trace 异常Trace 异常Trace d b c 找到异常起始点异常Trace 异常Trace 异常Trace a a c C D D F 业务 n 实时特征生成 A A e 异常找典型特征编码 Trace f 问题思路 1. 业务模式多，数据量大，不确定性大 Ø 业务链路特征实时生成 2. 业务系统复杂多变，请求链路复杂多变 Ø 模式识别，业务自动聚类 3. 多人参与排查，人肉运维成本高 Ø 图算法，根因自动定位根因典型Trace service+name +latency+status d A B C D h E F d A B C G d D D H d D h E d A B C D 可能的根因 F h E F K H G H

16. 案例：多端链路追踪业务耗时多端串联 iOS 指标信息微服务 Android 多层嵌套拓扑节点

17. 整体架构方案上层应用链路分析拓扑查询指标查询日志查询根因定位数据处理指标预计算 Trace链路生成依赖关系生成拓扑结构特征处理中心统一存储数据存储 Logging 数据源 SDK Tracing Metrics 用户点击网络质量性能访问日志

18. 总结 04 03 02 01 l 完善插件、注解等方式采集支持 l 更多三方框架的支持丰富可观测数据源 l 网络质量采集 l 性能数据采集等扩展端侧应用场景 l 用户访问监测 l 性能 Profiling 等能力开源，贡献社区

19. 扫码回复「D2」获取第十七届 D2 演讲 PDF 材料后续也将推送 D2 会后技术文章，敬请关注！！

20. 感谢大家观看