度小满金融业务风险监控体系及智能监控平台
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3. 肖汉
质量专家
4. TABLE OF
CONTENTS 大纲
• 转换思路:系统没故障,线上真的没问题吗?
• 基于业务风险的监控体系
• 服务业务风险体系的监控平台
• 实践效果及总结
5. 监控的目标是什么?发现系统故障?
•
•
•
•
•
假设代码有bug,本来应该充值1元,数据库里写了100元,这个是系统故障吗?
用户余额被清空,是系统故障吗?
产品规则出现漏洞,被薅羊毛,是系统故障吗?
风控规则策略错误,导致很多不该拒绝的订单拒绝,是系统故障吗?
前端产品设计不好,导致大量用户在页面不知所措从而流失,是系统故障吗?
那么,这些是线上问题吗?
6. 监控视角的转变 : 面向系统->面向业务
P0级线上问题分析
•
•
•
•
•
系统故障&性能
•
•
•
•
•
CPU使用率上升
接口耗时增加
错误日志
关键流量或成功率大幅下降
前端性能监控
业务风险&指标
资金损失
GMV下降
重大舆情
转化率下降
风险敞口
7. 业务风险的监控方法论
梳理
管理
功能 风险
场景 风险
等级 能否
监控
信贷 申购 赎回资损 P0 可监控
理财 赎回 赎回垫资 P0 可部分监控
保险 查看持仓 赎回失败 P0 …… …… 无法监控
赎回方式错误
业务
分类
赎回金额
显示错误
……
P1
P1
是否
已监控
不可监
控原因
现有方
案规则
8. 业务风险的监控体系
<- 指导方法
业务风险的监控方法论
时序数据指标监控 数据一致性监控 请求探针监控
画骨智能监控平台 AnyCheck实时对账平台 Hugin探针监控平台
数据采集 Flink实时
处理 Influx集群
数据衍生 异常检测 智能配置
统一报警
中心
智能报警触达
数据库对账
文件对账
接口数据一致性监控
问题定位组件
报警闭环处理
页面元素
探针
接口探针
<- 监控手段
<- 系统承接
静态资源探针
统计分析报表
<- 报警闭环
9. 基于时序数据的异常检测:画骨智能监控平台
业务监控面临的挑战:复杂“难看”的指标
画骨特性:高度灵活的监控策略算法配置
放款成功率监控:
• 10分钟级汇聚的放款总数 > n
• 和过去1、2、3个小时分别环比的放款成功率有2次下降5%
• 和过去5天同比的放款成功率有3天下降5%
• 以上条件在连续3个检测周期超过2次全部满足
复杂业务指标问题全召回下0误报
10. 基于时序数据的异常检测:画骨智能监控平台
业务监控面临的挑战:监控策略太复杂了,如何衡量效果
画骨特性:直观的回测能力和基于异常注入的智能监控评估
异常知识库:指标类型 + 异常特征
监控策略迭代周期从1周缩短到1分钟
11. 基于时序数据的异常检测:画骨智能监控平台
业务监控面临的挑战:上万的监控项,如何发现其中有问题的监控
画骨特性:大范围自动的量化报警策略评估和智能监控巡检
量化评估模型: 召回率 * w1 + 误报率 * w2 + 报警时效性 * w3
12. 基于时序数据的异常检测:画骨智能监控平台
业务监控面临的挑战:数据项太多了 / 数据项的维度太多了,监控配置维护成本太高
画骨特性:基于增强学习的报警策略智能推荐
VS
策略
模型
可解释性!!
13. 基于时序数据的异常检测:画骨智能监控平台
业务监控面临的挑战:数据项太多了 / 数据项的维度太多了,监控配置维护成本太高
画骨特性:基于增强学习的报警策略智能推荐
算法选择(同环比,绝对值,组合等)
阈值参数(阈值,窗口,容忍数等)
基于历史数据和随机异常注入的量化评估
跟据策略和随机变量反向迭代
产出推荐策略阈值
14. 基于知识库的智能问题定位组件平台
业务监控面临的挑战:报警定位困难,成本高
• 维度占比组件
• 多维度根因分析组件
• 关联上线操作组件
• 智能报警关联组件
• 日志关联组件
• Trace关联组件
• ……
15. 内容回顾
<- 指导方法
业务风险的监控方法论
时序数据指标监控 数据一致性监控 请求探针监控
画骨智能监控平台 AnyCheck实时对账平台 Hugin探针监控平台
数据采集 Flink实时
处理 Influx集群
数据衍生 异常检测 智能配置
统一报警
中心
智能报警触达
数据库对账
文件对账
接口数据一致性监控
问题定位组件
报警闭环处理
页面元素
探针
接口探针
<- 监控手段
<- 系统承接
静态资源探针
统计分析报表
<- 报警闭环
16. 实践效果 – 度量方法
85%
下降59%
P0P1问题监控召回率
监控避免P0P1问题情况
监控避免问题数:监控召回且有明显止损动作的问题数
17.
18.