快手大时长应用可观测挑战及应对实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 快 时 应 及应对实践 演讲 /移动端数据架构负责 快 :王辉 可观测挑战
2. 个 介绍 王辉 • 快 / 移动端数据架构负责 • 团队主要负责快 • 在互联 的埋点体系、研发数仓等可观测基础设施 业从事开发 作多年,开发过前端、后端、客户端、 据,也带过业务、架构等不同类型的团队 数
3.
4. 录 01 路径带来的挑战 总结与展望
5. 超 01 路径带来的挑战 时 ÷ 短内容 = 超 路径
6. 背景: 挖掘 于变更,
7. ① 流量归因问题 案例:电商希望能看到精确流量路径、流量来源,需要推动全站基建 客户:产品经理、分析师 问题洞察 精确描述 户路径 万亿级数据量避免关联 是否可以 动化、平台化 降低埋点成本
8. ② 算法归因问题 案例:搜索为将策略信息100%透传到所有下游叶 结点,需要推动全站基建 客户:推荐算法 问题洞察 策略需要统 标准 需要兼容多策略 需要SDK来保证正确性
9. ② 算法归因问题 案例:算法架构团队希望不再被埋点block实验 客户:推荐算法 问题洞察 要100%覆盖存量、增量 策略参数要有扩展弹性 全链路要打通 后端 临 M*N 复杂度 是否可以 动化 实时性与成本的平衡
10. ③ 故障归因问题 案例 :未能及时定位的变更故障,影响 持续上升 客户:客户端开发 问题洞察 损效率取决于定位效率 变更导致故障占 变更数据、故障数据如何 关联?
11. 整体解题思路 套完整的打法来保障落地效果。Todo:如何解决?先框架,再逐个击破
12. 02 可观测体系构建 组织、规范、流程 + 平台化
13. 组织规范建设 规范有卡 跨组织协同 质量&稳定性 技术 案评审 动化校验 故障处置机制
14. 平台化建设 通过端到端平台建设,实现全链路联动、 埋点需求、验收流程 标准化流量数仓 实时特征规范/管理 助埋点 统 流量拆分模型 全站特征加 动化校验 统 透传机制 实验体系模型 算法实验数据管线 路径数据校验 基础流量监控 全站流量分发校准 基础质量监控 流 量 栈模型 埋点SDK 品 产 埋点平台 助化。 PB规范管理 路径 埋点 动化、 构 端 架 流量数仓 量 流 构 架 实时特征平台 法 算 构 架
15. 03 路径归因实践 流量、算法、稳定性三个领域的归因架构探索
16. ① 流量归因:
17. ① 流量归因:染 要点 • 原理:通过 志对埋点进 交叉 验证 • 端上质检SDK • 2M mmap存储精简 路径还原、检测 • 可配置场景进 志 (URT)质量检测机制
18. ② 算法归因:内容策略(STID)通道规范 规范)
19. ② 算法归因:内容策略(STID)通道 与 效率提升 要点 • 服务端通过SDK实现内容策略透传 • 客户端SDK与业务联合实现实体参 数的动态提取 • 服务端SDK、客户端SDK、 SDK联合升级实现透传能 式动态扩展能 • 配置化的极简实时通道 络 及圈选
20. ③ 故障归因:变更数据链路
21. ③ 故障归因:变更归因架构
22. 04 总结与展望 更全 、更易
23. 效果 For 客户端排障 策略通道(STID) 归因平台 • 全公司 • 故障定位 个通道, 套模型 损均值 <10分钟 • 全域流量覆盖率 99% + • 端侧变更归因准召 90%+ • 端到端打通,实验隔 • 后端 上线 • Showcase: ‣ 60pd (开发) → 5pd (变更) ‣ 13个团队 → 2个团队 客户端归因准召 60%+ • P4+级故障 1 起,P5级 4 起 径:变更引起的故障(占 盘80%)
24. 实践反思 定短板,强假设必不可少(如领域相关度等)。
25.
26. THANKS

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:21
浙ICP备14020137号-1 $访客地图$