字节apm那些事儿
如果无法正常显示,请先停止浏览器的去广告插件。
1. T Chat
我在大厂做研发
字节 APM 那些事儿
丰亚东 @Bytedance
x
2. T Chat
x
丰亚东
字节 APM 中台客户端负责人
2016年加入字节跳动,2017年底专注在 APM 方向,从
0到1到N全程参与了字节 APM 中台的建设
3. T Chat
• APM 到底需要做什么
• APM 的难点有哪些
• 字节 APM 团队部分工作成果
• APM 前景展望
x
4. T Chat
x
APM = Application Performance Management
崩溃监控 + 启动优化?
5. T Chat
x
Iceberg Theory
10% Surface
90% Deeper
6. T Chat
x
问题暴露,测试左移
问题发现/归因/止损 问题治理
开发者工具 测试手段 生产环境应急响应 版本迭代优化
Lint工具 Monkey 稳定性测试 稳定性/性能监控 彻底修复
Zombie 设备兼容性测试 问题报警/归因/分发 问题复盘
ASan 功能测试 性能测试 日志分析 远程调试 改进验收
Instruments 单元测试 冒烟测试 安全气垫 热修复 测试覆盖
研发
测试
集成
灰度
上线
优化
7. T Chat
• APM 到底需要做什么
• APM 的难点有哪些
• 字节 APM 团队部分工作成果
• APM 前景展望
x
8. T Chat
x
难点1:如何在快速迭代过程中避免劣化?
9. T Chat
x
难点1:如何在快速迭代过程中避免劣化?
在团队中宣贯
⻛险和质量意识
通过更多自动化的流
程和机制驱动测试
CI/CD流程中设置
卡口,规范准入准
出,拦截劣化
10. T Chat
x
难点2:如何定位到疑难问题的根本原因?
11. T Chat
x
难点2:如何定位到疑难问题的根本原因?
12. T Chat
x
难点2:如何定位到疑难问题的根本原因?
钻研底层原理,建设
系统性的归因工具
想办法将问题暴露在
第一现场
重视日志工具,有
⻛险的环节有意识主
动添加埋点和日志
13. T Chat
x
难点3:线上问题爆发后如何第一时间止损?
14. T Chat
x
难点3:线上问题爆发后如何第一时间止损?
闭源SDK,自身有
⻛险的改动增加云控
开关
问题爆发后排查后
端服务或者AB实验变
更,第一时间回滚
探索安全气垫,热
修复,启动保护等兜
底方案
15. T Chat
• APM 到底需要做什么
• APM 的难点有哪些
• 字节 APM 团队部分工作成果
• APM 前景展望
x
16. T Chat
x
性能分析工作台-Anytrace
17. T Chat
x
性能监控全链路版-APMPlus
18. T Chat
x
性能监控全链路版-APMPlus
19. T Chat
• APM 到底需要做什么
• APM 的难点有哪些
• 字节 APM 团队部分工作成果
• APM 前景展望
x
20. T Chat
x
前景展望
测试左移逐步成为
业界共识,自动化测
试覆盖面持续提升
问题报警,归
因,分发流程自动
化,智能化,可自动
关联后端变更
监控数据支持以
场景甚至⻚面粒度聚
合,与后端监控打
通,可一站式盯盘
疑难问题的解决思
路和经验可以在集团
甚至行业内互通
21. T Chat
x
THANK YOU