快手大时长应用可观测挑战及应对实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 快
时
应
及应对实践
演讲
/移动端数据架构负责
快
:王辉
可观测挑战
2. 个
介绍
王辉
• 快
/ 移动端数据架构负责
• 团队主要负责快
• 在互联
的埋点体系、研发数仓等可观测基础设施
业从事开发
作多年,开发过前端、后端、客户端、
据,也带过业务、架构等不同类型的团队
数
3.
4. 录
01
路径带来的挑战
总结与展望
5. 超
01
路径带来的挑战
时
÷ 短内容 = 超
路径
6. 背景:
挖掘
于变更,
7. ① 流量归因问题
案例:电商希望能看到精确流量路径、流量来源,需要推动全站基建
客户:产品经理、分析师
问题洞察
精确描述
户路径
万亿级数据量避免关联
是否可以
动化、平台化
降低埋点成本
8. ② 算法归因问题
案例:搜索为将策略信息100%透传到所有下游叶 结点,需要推动全站基建
客户:推荐算法
问题洞察
策略需要统
标准
需要兼容多策略
需要SDK来保证正确性
9. ② 算法归因问题
案例:算法架构团队希望不再被埋点block实验
客户:推荐算法
问题洞察
要100%覆盖存量、增量
策略参数要有扩展弹性
全链路要打通
后端
临 M*N 复杂度
是否可以
动化
实时性与成本的平衡
10. ③ 故障归因问题
案例 :未能及时定位的变更故障,影响
持续上升
客户:客户端开发
问题洞察
损效率取决于定位效率
变更导致故障占
变更数据、故障数据如何
关联?
11. 整体解题思路
套完整的打法来保障落地效果。Todo:如何解决?先框架,再逐个击破
12. 02
可观测体系构建
组织、规范、流程 + 平台化
13. 组织规范建设
规范有卡
跨组织协同
质量&稳定性
技术
案评审
动化校验
故障处置机制
14. 平台化建设
通过端到端平台建设,实现全链路联动、
埋点需求、验收流程
标准化流量数仓 实时特征规范/管理
助埋点 统 流量拆分模型 全站特征加
动化校验 统 透传机制 实验体系模型 算法实验数据管线
路径数据校验 基础流量监控 全站流量分发校准
基础质量监控
流
量
栈模型
埋点SDK
品
产
埋点平台
助化。
PB规范管理
路径
埋点
动化、
构
端
架
流量数仓
量
流
构
架
实时特征平台
法
算
构
架
15. 03
路径归因实践
流量、算法、稳定性三个领域的归因架构探索
16. ① 流量归因:
17. ① 流量归因:染
要点
• 原理:通过
志对埋点进
交叉
验证
• 端上质检SDK
• 2M mmap存储精简
路径还原、检测
• 可配置场景进
志
(URT)质量检测机制
18. ② 算法归因:内容策略(STID)通道规范
规范)
19. ② 算法归因:内容策略(STID)通道 与 效率提升
要点
• 服务端通过SDK实现内容策略透传
• 客户端SDK与业务联合实现实体参
数的动态提取
• 服务端SDK、客户端SDK、
SDK联合升级实现透传能
式动态扩展能
• 配置化的极简实时通道
络
及圈选
20. ③ 故障归因:变更数据链路
21. ③ 故障归因:变更归因架构
22. 04
总结与展望
更全
、更易
23. 效果
For 客户端排障
策略通道(STID) 归因平台
• 全公司 • 故障定位
个通道,
套模型
损均值 <10分钟
• 全域流量覆盖率 99% + • 端侧变更归因准召 90%+
• 端到端打通,实验隔 • 后端
上线
• Showcase:
‣ 60pd (开发) → 5pd (变更)
‣ 13个团队 → 2个团队
客户端归因准召 60%+
• P4+级故障 1 起,P5级 4 起
径:变更引起的故障(占
盘80%)
24. 实践反思
定短板,强假设必不可少(如领域相关度等)。
25.
26. THANKS