高效精准的全链路线上问题自动定位实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2.
3.
4. O1 背景 O2 O3 O4 技术方案 落地效果 后续规划
5. 背景
6. 背景—从搜索说起 一次搜索的业务流转 大搜 前端 引擎 点睛 平台 计费 数仓 看似简单的背后是庞大复杂的业务 逻辑...
7. 背景—线上问题定位困难,定位周期长 大搜 数仓 多机房 PV数 部署 亿 前端 广告类 业务 多种实 环境复 随机路 庞大 验 杂 由 计费 型多 消息数 亿 数据复 杂 引擎 点睛 丰富中 平台 间件 哪个业务出了问题? 哪个环境出了问题? 定位问题困 难 修复周期长 策略多 客户流失 日志数 T 哪条数据出了问题? BAD生态
8. 技术方案
9. 技术方案—思考  输入:异常账户信息/查询相关信息,我们有哪些资源(环境,数据,工具)  输出:异常原因,解决方案  解决方案:怎么由输入自动得到期望的输出?还差什么,如何补齐?  限定条件:效率、准确度、稳定性、 易用性需要综合考虑
10. 技术方案 环境 数据采集 自动定位 监查一体化
11. 技术方案—环境—环境选型 问题: 现有环境满足定位要求不? 现状: 线上环境不能排查业务问题 线下环境排查业务问题不置信 方案: 搭建旁路环境 线上环境+旁路环境进行问题定位 工欲善其事,必先利其器
12. 技术方案—环境—旁路环境搭建 目标:搭建与线上主流量同步的,提供稳定服务的旁路环境,并随上线实时更新  MEM/CPU/DISK/机器存活 监控  字典、基线、消息同步(含 s3同步,hadoop同步,kafka 同步) 混布54台 模块或服 机器资源 务100+ 同步任务 200+ 定时清理 任务100+  模块/服务/第三方依赖搭建 (10+业务模块,as,memcache, redis,ms,Hadoop,nginx等)  同步上线&回滚  无用字典,基线,消息,过期 日志清理 工欲善其事,必先利其器
13. 技术方案—环境—环境可用性保障 从数据,服务,配置,模型多角度保障旁路环境和主流量环境一致,确保定位置信而准确 • 同步工具: 新数据上线,数据定时更新,数据下线 数据 • 监控:数据一致性监控 • 流程:旁路走正常主流量上线流程,小流量上线需回滚 服务 • 监控:服务一致性监控,服务存活监控 • 同步工具:上下游链接配置,模型配置,中间件配置,个性化配置 配置 • 监控:非个性化配置一致性监控 • 同步工具:模型上线,模型下线,模型更新 模型 • 监控:模型可用性监控 工欲善其事,必先利其器
14. 技术方案—数据采集—源数据生成  策略数据生成  召回数据生成  模块间接口数据梳理  主要接口数据生成 策略&召 广告物 回数据 料数据 接口数 过滤原 据 因数据  广告物料/计费数据  引擎广告正排|倒排|预算数据  按需定制的数据  60+广告过滤策略  随业务/定位需求添加过滤策略  特殊情况考虑 问渠哪得清如许,为有源头活水来
15. 技术方案—数据采集—数据获取 问渠哪得清如许,为有源头活水来
16. 技术方案—数据采集—数据示例  广告数据  展现数据  过滤原因数据  召回数据 问渠哪得清如许,为有源头活水来
17. 技术方案—自动定位 源数据  半结构化的json数据  多个json数据组合  固定格式的召回数据  混合数据 数据清洗/归一化 数据提取  对混合数据进行数据清洗 混合情况众多 缺失数据修补 字段异常处理  多个json数据分割  固定格式数据转存  异常数据处理  梳理定位需要的业务 数据字段  确定各个业务字段值 的含义  提取并保存重要业务 字段  字段映射 千淘万漉虽辛苦,吹尽狂沙始到金
18. 技术方案—自动定位 数据分析 综合定位  分析路径优化剪裁  关联分析找到根本原因  字段取值分析  多机房情况分别分析  多字段联合分析  多阶段异常分别报错  多线程并行分析  给出解决方案或者联系人 结果呈现  分阶段展示关键业务 指标  异常飘红  详细信息链接可达  输入不合法提醒 千淘万漉虽辛苦,吹尽狂沙始到金
19. 技术方案—监查一体化 旁路压 上线 解决 提升上 线效率 自动定 位 测 结果统 解决 计 完善线 监控 上质量 自动定 异常指 位 标 明者远见于未萌,智者避危于无形
20. 技术方案—实现框架 全链路线上问题自动定位系统  易用的前端  并发,高性能的服务端  丰富的底层支持
21. 落地效果
22. 落地效果—质效提升 数据  能自动定位且定位准确占线上问题总量的70%  线上问题排查参与人数从6~8人缩减到0.3-0.5人  大部分线上问题定位效率提升到秒级 应用场景  用户反馈问题,运营通过该系统自动定位, 提升用户问题闭环效率  多端上线,监控展现异常,接入该系统自动定位,提升上线效率  监控发现特定物料展现异常,接入该系统自动定位,做到监查一体化  线上问题定位能力迁移到线下,提升线下联调|系统级问题排查效率
23. 落地效果—实例展示 策略过滤 黑名单过滤 物料无效
24. 落地效果—实例展示 地域过滤 消费大于预 算 余额过低
25. 落地效果—复盘机制形成良性闭环  用户/产品/RD/QA 发现的线上问题 实时记录  定时进行问题复盘 bug发现过程 bug定位过程(自动 or 人工) 线下未拦截原因 未拦截/未自动定位根本原因 举一反三,萃取共性 完善流程,线上线下工具 效果: 线上问题收 解决闭环效 敛 率提升 GOOD生态
26. 后续规划
27. 后续规划 全链路日志分析 完善监查一体化
28. 360技术 THANKS 360质量效能

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-24 23:23
浙ICP备14020137号-1 $访客地图$