高效精准的全链路线上问题自动定位实践
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3.
4. O1
背景
O2 O3 O4
技术方案 落地效果 后续规划
5. 背景
6. 背景—从搜索说起
一次搜索的业务流转
大搜
前端
引擎
点睛
平台
计费
数仓
看似简单的背后是庞大复杂的业务
逻辑...
7. 背景—线上问题定位困难,定位周期长
大搜
数仓
多机房 PV数
部署 亿
前端
广告类
业务 多种实 环境复 随机路
庞大 验 杂 由
计费
型多
消息数
亿
数据复
杂
引擎
点睛 丰富中
平台 间件
哪个业务出了问题? 哪个环境出了问题?
定位问题困
难
修复周期长
策略多
客户流失
日志数
T
哪条数据出了问题?
BAD生态
8. 技术方案
9. 技术方案—思考
输入:异常账户信息/查询相关信息,我们有哪些资源(环境,数据,工具)
输出:异常原因,解决方案
解决方案:怎么由输入自动得到期望的输出?还差什么,如何补齐?
限定条件:效率、准确度、稳定性、 易用性需要综合考虑
10. 技术方案
环境
数据采集
自动定位
监查一体化
11. 技术方案—环境—环境选型
问题:
现有环境满足定位要求不?
现状:
线上环境不能排查业务问题
线下环境排查业务问题不置信
方案:
搭建旁路环境
线上环境+旁路环境进行问题定位
工欲善其事,必先利其器
12. 技术方案—环境—旁路环境搭建
目标:搭建与线上主流量同步的,提供稳定服务的旁路环境,并随上线实时更新
MEM/CPU/DISK/机器存活
监控
字典、基线、消息同步(含
s3同步,hadoop同步,kafka
同步)
混布54台 模块或服
机器资源 务100+
同步任务
200+ 定时清理
任务100+
模块/服务/第三方依赖搭建
(10+业务模块,as,memcache,
redis,ms,Hadoop,nginx等)
同步上线&回滚
无用字典,基线,消息,过期
日志清理
工欲善其事,必先利其器
13. 技术方案—环境—环境可用性保障
从数据,服务,配置,模型多角度保障旁路环境和主流量环境一致,确保定位置信而准确
• 同步工具: 新数据上线,数据定时更新,数据下线
数据
• 监控:数据一致性监控
• 流程:旁路走正常主流量上线流程,小流量上线需回滚
服务
• 监控:服务一致性监控,服务存活监控
• 同步工具:上下游链接配置,模型配置,中间件配置,个性化配置
配置
• 监控:非个性化配置一致性监控
• 同步工具:模型上线,模型下线,模型更新
模型
• 监控:模型可用性监控
工欲善其事,必先利其器
14. 技术方案—数据采集—源数据生成
策略数据生成
召回数据生成
模块间接口数据梳理
主要接口数据生成
策略&召 广告物
回数据 料数据
接口数 过滤原
据 因数据
广告物料/计费数据
引擎广告正排|倒排|预算数据
按需定制的数据
60+广告过滤策略
随业务/定位需求添加过滤策略
特殊情况考虑
问渠哪得清如许,为有源头活水来
15. 技术方案—数据采集—数据获取
问渠哪得清如许,为有源头活水来
16. 技术方案—数据采集—数据示例
广告数据
展现数据
过滤原因数据
召回数据
问渠哪得清如许,为有源头活水来
17. 技术方案—自动定位
源数据
半结构化的json数据
多个json数据组合
固定格式的召回数据
混合数据
数据清洗/归一化
数据提取
对混合数据进行数据清洗
混合情况众多
缺失数据修补
字段异常处理
多个json数据分割
固定格式数据转存
异常数据处理
梳理定位需要的业务
数据字段
确定各个业务字段值
的含义
提取并保存重要业务
字段
字段映射
千淘万漉虽辛苦,吹尽狂沙始到金
18. 技术方案—自动定位
数据分析
综合定位
分析路径优化剪裁 关联分析找到根本原因
字段取值分析 多机房情况分别分析
多字段联合分析 多阶段异常分别报错
多线程并行分析 给出解决方案或者联系人
结果呈现
分阶段展示关键业务
指标
异常飘红
详细信息链接可达
输入不合法提醒
千淘万漉虽辛苦,吹尽狂沙始到金
19. 技术方案—监查一体化
旁路压
上线
解决
提升上
线效率
自动定
位
测
结果统
解决
计
完善线
监控
上质量
自动定 异常指
位 标
明者远见于未萌,智者避危于无形
20. 技术方案—实现框架
全链路线上问题自动定位系统
易用的前端
并发,高性能的服务端
丰富的底层支持
21. 落地效果
22. 落地效果—质效提升
数据
能自动定位且定位准确占线上问题总量的70%
线上问题排查参与人数从6~8人缩减到0.3-0.5人
大部分线上问题定位效率提升到秒级
应用场景
用户反馈问题,运营通过该系统自动定位, 提升用户问题闭环效率
多端上线,监控展现异常,接入该系统自动定位,提升上线效率
监控发现特定物料展现异常,接入该系统自动定位,做到监查一体化
线上问题定位能力迁移到线下,提升线下联调|系统级问题排查效率
23. 落地效果—实例展示
策略过滤
黑名单过滤
物料无效
24. 落地效果—实例展示
地域过滤
消费大于预
算
余额过低
25. 落地效果—复盘机制形成良性闭环
用户/产品/RD/QA 发现的线上问题
实时记录
定时进行问题复盘
bug发现过程
bug定位过程(自动 or 人工)
线下未拦截原因
未拦截/未自动定位根本原因
举一反三,萃取共性
完善流程,线上线下工具
效果:
线上问题收 解决闭环效
敛 率提升
GOOD生态
26. 后续规划
27. 后续规划
全链路日志分析
完善监查一体化
28. 360技术
THANKS
360质量效能