网易云音乐智能监控探索与实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 网易云音乐智能监控探索
与实践
网易云音乐 /宋东辉
2.
3. 网易云音乐 /宋东辉
资深测试开发工程师
浙江大学硕士毕业之后,加入支付宝,参与蚂蚁端稳定性
Sapienz 项目建设,数字内容治理项目核心成员,双12大促主
要质量负责人之一。
2021年加入网易云音乐,负责云音乐大数据质量和效能建设,
发起并牵头多方共建DataOps项目和智能监控项目。
4. 1、 背景简介
目 录 2、方案介绍
Contents 3、落地效果
4、未来展望
5. 1、背景简介
6. 1.1、云音乐大数据治理现状
7. 大数据的框架
客户端
DIM层
用户日志
系统日志
服务端
用户日志
系统日志
开放平台
三方日志
系统日志
数据库
MySQL
DDB
数据
生产
ODS
层
BI平台
DWD层 DWS层 ADS层
业务主题域1 分析主题域1 数据集市1
明细事实表1
明细事实表2
……
明细事实表N
轻度汇总事实表1
轻度汇总事实表2
……
轻度汇总事实表N
数据集市2
圈选平台
数据
消费
机器学习
平台
数据集市3
业务主题域N 分析主题域1
明细事实表1
明细事实表2
……
明细事实表N 重度汇总事实表1
重度汇总事实表2
……
重度汇总事实表N
有数平台(网易数帆)
AB实验
平台
数据集市N
数据服务
平台
8. 大数据治理图
平台侧
现状
资源有限 任务&表
70+p存储
4w+CU 2.4w+表
1.8w+任务
需求侧
新增埋点
业务
近100/月
10+业务线
A级以上活动
日常变更
近100/日
动
作
基线治理
运行时间预测
治理
规范治理
动
作
潜在风险探测
感知数据异常、
避免问题蔓延、
保障数据正确性
动
作
迭代规范
重点项目100%
接入dataOps
依赖、模型治理
攻防演练
生产侧
“轻量”变更
巡检兜底,100%
覆盖任务&表变更
全方位感知异常,
快速定位、止血、解决
9. 大数据生产侧治理的难点
业务复杂
10+业务线
属性各异
检测难
1)突“增”型
覆盖难
2)突“降”型
人工监控
离线任务
1.8w+任务
5k+日常调度
误报高
分析难
指标
表现
定位难
3)频率变化型
4)强“趋势”型
追踪难
收敛难
检测难
变更频繁
各类变更繁杂
分析难
5)强“周期”型
6)“无序”型
10. 2、方案介绍
11. 2.1、智能监控选型
12. 大数据异动感知
统计算法: 绝对值,相对值,周期检测,假设检验
分类模型: K-means、SVM等
预测模型: LSTM、ptophet等
单点环比
周期比较
异动分类
K-means
指标数据
K-sigma
均值比较
� � |� = 1,2⋯
指标均值和方差
�
�
� �
� � − �
�
=1
�
=1
�=
� ,� =
K-sigma检测动态阈值
� − �,� + �
K-means获取簇中心
�=
�
� =1
� � − � �
2
2
�−1
13. 大数据异动感知
统计算法: 绝对值,相对值,周期检测,假设检验
分类模型: K-means、SVM等
预测模型: LSTM、prophet等
随机森林分类
优点:预测结果准确,训练容易
缺点:需要标签数据,容易过拟合
LSTM预测
prophet
优点:预测结果准确,不需要标签数据
缺点:需要大量数据、训练困难、场景很难普适
优点:训练容易,适应性强
缺点:复杂场景精度差,需要大量数据
14. 大数据异动归因
统计算法: 贝叶斯算法 分类算法:GBDT
贝叶斯表达式: 表达式:
Y(x)= �
�=1 � � (x)
x为特征,Y为分类结果
见样本数据表.1,y为人工打标标签
� �|� = � �|� * � � /� �
B表示目标任务告警,A表示上游任务A告警
根据样本数据表.1,得到p(B),p(A*),p(B/A*)的统计概率。
表.1 任务B的告警记录
字段级别血缘
上游任务 其他特征 是否告警 是否强依赖
目标任务是否告警 y
A1
A2
A3
…… ……
……
……
…… 否
是
是
…… 否
否
是
…… 否
否
否
……
A1
A2
A3 ……
……
…… 是
否
是 是
否
是 是
是
是
0
0
0
…
…
1
0
0
15. 2.2、智能监控方案落地
16. 大数据智能监控方案
核心方案
平台化
旁路验证
异动归因
结束
否
统计诊断
指标数据
数据预处理
异动诊断
异常分类
无周期
是
周期识别
有周期
标签数据
表级归因
长周期诊断
样本处理
popo
字段级血缘
字段关系挖掘
历史告警数据标签
贝叶斯
余弦相似度
模型优化
字段级归因
短信
长周期预测
血缘数据
表级血缘
人工跟进
短周期诊断
历史数据
任务&表映射
异步告警
可视化大盘
K-sigma
K-means
prophet
监督模型
17. 大数据智能监控平台化
核心方案
基础数据
旁路验证阶段
平台化
门
禁
人工监控
字段级别血缘
旁路验证
平台化阶段
监控策略
人工规则
人工&智能监控
智能监控
准确度
召回率
打通popo、有数、
om等平台
人工监
控告警
监督模型验证
历史数据
统计模型验证
人工跟
进
bug类日志
误报类日志
变更类日志
预测模型验证
模型调
试
样本数据
类型标签
人工跟
进
异动归因
18. 大数据智能监控旁路验证
平台化
核心方案
旁路验证
定义
告警模版
告警
全员
参与
人工
全员
宣贯
启动
日/周
高频通晒
沉淀可用的
告警标签数据
action_tim
alert_nam
close_time
alert_id
e
e
biz_type alert_time
274 dqc_music
_dws-
2023-02- 2023-02- 2023-02-
dws_agr_c
19T05:15:4 24T14:51:5 24T14:51:5
4138596
opyright_s
9Z
9Z
9Z
ong_play_t
ag_di
274
274
dqc_music
_dws-
2023-03- 2023-03- 2023-03-
dws_agr_c
04T04:47: 06T09:59: 06T09:59:
4288973
opyright_
12Z
21Z
21Z
mv_play_t
ag_di
dqc_music
_ad-
2023-03- 2023-03- 2023-03-
ads_ad_m
04T16:43:1 05T21:54: 05T21:54:
4294264
oney_sync
4Z
48Z
48Z
2musician
_di
table_nam
product
e
cluster
alert_princ alert_princ
alert_type jira_id
ipal
ipal_email
bug_type bug_desc
dws_agr_c
opyright_s
da_music hz11
ong_play_t
ag_di 宋** NULL 4 OMMUSIC
数据异常
-344699 歌曲***付费类型映射异常,
已通知曲库修改
dws_agr_c
opyright_
da_music hz11
mv_play_t
ag_di 李** NULL 4 OMMUSIC
数据异常
-367004 已经解决,广告表延迟产
出
ads_ad_m
oney_sync
da_music hz11
2musician
_di 李** NULL 4 OMMUSIC
数据异常
-367004 广告表未按时产出
异动归因
19. 大数据智能监控旁路验证
长时间数据
平台化
核心方案
旁路验证
异动归因
监督模型
标签数据注入
异常样本增强
正常数据欠采样
归一处理
较长时间数据
标签数据注入
上游是否告警 其他特征 是否核心指标 目标任务指标 y
是
否 ……
…… 是
是 0.030335246946286976
-0.012270992212428111 0
0
否 ……
……
……
……
…… 是
……
是
是
是
是
否
否
剔除异常数据
均值补充
-0.01419882270362638
0
……
……
0.4533249013909857
1
0.01956796235249691
0
0.6160516878714195
0
预测模型
优点 :预测结果准确,
缺点 :依赖标签数据,
不适合冷启,容易过拟合
优点 :训练容易,对噪点不敏感,
预测结果准确,不依赖标签数据
缺点 :适合长周期,不适合冷启
问题 :无规律、无周期的数据预测不准确
短时间数据
标签数据注入
剔除异常数据
归一
聚类/k-sigma模型
异常点不参与训练
只作为效果验证
优点 :简单,不依赖标签数据
缺点 :噪点敏感,不适合冷启
20. 大数据智能监控异动归因
埋点/日志
spm.a.b.c.d
数据仓库
ETL 实时/离线
DS
kafka
表A1
字段a1
字段a2
字段a3
字段a4
表A2
字段a1
表A3
字段a1
字段a3
字段a4
核心方案
平台化
假设:1)指标告警只有本身、上游+1指标引起
2)同层指标间无相互依赖
3)埋点等上游正确(这同样是一个大的命题:略)
贝叶斯公式:
� �|� = � �|� * � � /� �
示例:表B某指标监控规则告警,上游表 A1、A2和A3
需要统计的指标:
1)表B最近一周告警的概率 示例:p(B)=2/7
2)表Ai最近一个月告警的概率 示例:p(Bi) =13/30
数据清洗:Ai没有监控,首先取 max(p(Ai)),
其次取p(A)
3)预估p(B|Ai)
表B
字段b1
字段b2
字段b3
字段b4
维度
p(Ai)权
重
核心 无监控 本次告 本次未
指标
警
告警
0.2
0.05
0.2
0.1
辅助分析--字段级别归因示例:
2023-11-01 09:08,表B.字段b1告警,
上游表A1.字段a1异常关联度0.3(告警),
上游表A2.字段a1异常关联度0.1(未告警),
上游表A3.字段a3异常关联度0.05(告警)
旁路验证
异动归因
21. 3、落地效果
22. 大数据智能监控落地效果
业务
10+业务接入
千级别核心表覆盖
业务 用户中台 会员 平台 …… 安全中台
核心表数量 400+ 50+ 110+ …… 20+
安全中台
用户中台
累计拦截13个线上异常
累计拦截14个线上异常
智能告警拦截示例
这种告警数据
非常有迷惑性
23. 大数据智能监控落地效果
监控覆盖
•核心表覆盖80%,
提升24%
监控跟进
•核心表告警跟进率
87%
问题召回
•拦截数据异常47,
提升46%
•监控规则量提升 •累计优化监控 •整体召回率83%,
40% 182次,提升80% AI召回率88%
•AI误报量下降70%
24. 4、未来展望
25. 未来展望
FOR DATA
平台侧 生产侧
展
望 展
望
研发层(提效) :自然语言创建自定义函数,text2SQL工程化落地
储存层(降本) :根据使用场景+频率,智能决定存储类型
调度层(保稳) :根据重要度+算力+数据量+历史时长,智能决定调度批次
监控指标设计: 极具挑战
监控归因分析: 跨平台血缘依赖
、根因分析依然是难点
复杂的监控指标,依然需要人工设计
select * as pv_ctr
from
(
……
)impress_df
left join
(
……
)click_df
on ……
智能监控模型: 冷启,样本量少
,过拟合,仍然是难点
26. 未来展望
FOR DATA --平台侧
友好的交互
敏捷的研发
依然是主旋律
个性化
字段映射
特殊知识
ChatBI
简易化
对话式交互
一键操作
辅助编码
大模型
更强建模
自学习
自我修正
编码纠错
27. 未来展望
FOR AI --大模型应用级评测 场景模拟
攻击GAI模型
环境信息
事件信息
用户画像
基本信息
行为&兴趣
语言风格
话语特色
心境&情绪
GAI
生成
自动
对话
目标大模型
GAI:很抱歉,我不小心抢了被子,导致你发烧了…我真的很愧疚…
目标AI:哎呀呀,你这话听着真不新鲜,我已经听到N遍了。
*
*
*
目标AI:哈哈,你可真是个慢郎中,赶紧的,我要的不只是冰毛巾,
还有你的关心哦。
GAI:好的,我知道了,马上就来!你的关心我都会给你的!
目标AI:这还差不多,记得别忘了答应我的温水和冰毛巾哦。
GAI:好嘞,我这就去准备。等我一下就好!
目标AI:快点快点,我这小病号可等不及了。
内容
评测
质量评测
关联评测
##你的聊天策略
1. 说话都是短句,每句话不超过30个字,一次回复不超
过3句话。
*
*
##你的说话风格
1. 兴奋、激动、表示惊叹时会在句末打多个感叹号,如
“真的嘛!这也太牛了吧!!”
“我也看到新闻了 真的太可怕了!!”
*
*
##回复格式:
reply:男用户的回复内容
mood:男用户看完聊天对象回复后的心情
关系建联 提示词策略
语义评测
攻击
对话
稳定性
评测
内容评测
##Task:
你的名字叫小苏,*****
##人设信息
姓名:小苏
生日:1995年09月29日
年龄:29岁
*
*
饮食习惯:爱吃肉、喝酒,主要吃妈妈做的饭菜
运动习惯:忙着送快递,平时没有运动的习惯
宠物:不喜欢宠物,尤其是猫
提示词
组装
稳定性评测
质量评测
句长评测
GA
语句
性能评测
词库
打分
发散评测
语料
沉淀
语料池
GA词库
关系阶段 智能策略 线上采样 形近字
同音字
动态状态 人工策略 GAI沉淀 同义词 异常字符
28. 致谢
29. 致谢
舞台,从不是一
个人的热闹!
30.