网易云音乐智能监控探索与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网易云音乐智能监控探索 与实践 网易云音乐 /宋东辉
2.
3. 网易云音乐 /宋东辉 资深测试开发工程师 浙江大学硕士毕业之后,加入支付宝,参与蚂蚁端稳定性 Sapienz 项目建设,数字内容治理项目核心成员,双12大促主 要质量负责人之一。 2021年加入网易云音乐,负责云音乐大数据质量和效能建设, 发起并牵头多方共建DataOps项目和智能监控项目。
4. 1、 背景简介 目 录 2、方案介绍 Contents 3、落地效果 4、未来展望
5. 1、背景简介
6. 1.1、云音乐大数据治理现状
7. 大数据的框架 客户端 DIM层 用户日志 系统日志 服务端 用户日志 系统日志 开放平台 三方日志 系统日志 数据库 MySQL DDB 数据 生产 ODS 层 BI平台 DWD层 DWS层 ADS层 业务主题域1 分析主题域1 数据集市1 明细事实表1 明细事实表2 …… 明细事实表N 轻度汇总事实表1 轻度汇总事实表2 …… 轻度汇总事实表N 数据集市2 圈选平台 数据 消费 机器学习 平台 数据集市3 业务主题域N 分析主题域1 明细事实表1 明细事实表2 …… 明细事实表N 重度汇总事实表1 重度汇总事实表2 …… 重度汇总事实表N 有数平台(网易数帆) AB实验 平台 数据集市N 数据服务 平台
8. 大数据治理图 平台侧 现状 资源有限 任务&表 70+p存储 4w+CU 2.4w+表 1.8w+任务 需求侧 新增埋点 业务 近100/月 10+业务线 A级以上活动 日常变更 近100/日 动 作 基线治理 运行时间预测 治理 规范治理 动 作 潜在风险探测 感知数据异常、 避免问题蔓延、 保障数据正确性 动 作 迭代规范 重点项目100% 接入dataOps 依赖、模型治理 攻防演练 生产侧 “轻量”变更 巡检兜底,100% 覆盖任务&表变更 全方位感知异常, 快速定位、止血、解决
9. 大数据生产侧治理的难点 业务复杂 10+业务线 属性各异 检测难 1)突“增”型 覆盖难 2)突“降”型 人工监控 离线任务 1.8w+任务 5k+日常调度 误报高 分析难 指标 表现 定位难 3)频率变化型 4)强“趋势”型 追踪难 收敛难 检测难 变更频繁 各类变更繁杂 分析难 5)强“周期”型 6)“无序”型
10. 2、方案介绍
11. 2.1、智能监控选型
12. 大数据异动感知 统计算法: 绝对值,相对值,周期检测,假设检验 分类模型: K-means、SVM等 预测模型: LSTM、ptophet等 单点环比 周期比较 异动分类 K-means 指标数据 K-sigma 均值比较 � � |� = 1,2⋯ 指标均值和方差 � � � � � � − � � =1 � =1 �= � ,� = K-sigma检测动态阈值 � − �,� + � K-means获取簇中心 �= � � =1 � � − � � 2 2 �−1
13. 大数据异动感知 统计算法: 绝对值,相对值,周期检测,假设检验 分类模型: K-means、SVM等 预测模型: LSTM、prophet等 随机森林分类 优点:预测结果准确,训练容易 缺点:需要标签数据,容易过拟合 LSTM预测 prophet 优点:预测结果准确,不需要标签数据 缺点:需要大量数据、训练困难、场景很难普适 优点:训练容易,适应性强 缺点:复杂场景精度差,需要大量数据
14. 大数据异动归因 统计算法: 贝叶斯算法 分类算法:GBDT 贝叶斯表达式: 表达式: Y(x)= � �=1 � � (x) x为特征,Y为分类结果 见样本数据表.1,y为人工打标标签 � �|� = � �|� * � � /� � B表示目标任务告警,A表示上游任务A告警 根据样本数据表.1,得到p(B),p(A*),p(B/A*)的统计概率。 表.1 任务B的告警记录 字段级别血缘 上游任务 其他特征 是否告警 是否强依赖 目标任务是否告警 y A1 A2 A3 …… …… …… …… …… 否 是 是 …… 否 否 是 …… 否 否 否 …… A1 A2 A3 …… …… …… 是 否 是 是 否 是 是 是 是 0 0 0 … … 1 0 0
15. 2.2、智能监控方案落地
16. 大数据智能监控方案 核心方案 平台化 旁路验证 异动归因 结束 否 统计诊断 指标数据 数据预处理 异动诊断 异常分类 无周期 是 周期识别 有周期 标签数据 表级归因 长周期诊断 样本处理 popo 字段级血缘 字段关系挖掘 历史告警数据标签 贝叶斯 余弦相似度 模型优化 字段级归因 短信 长周期预测 血缘数据 表级血缘 人工跟进 短周期诊断 历史数据 任务&表映射 异步告警 可视化大盘 K-sigma K-means prophet 监督模型
17. 大数据智能监控平台化 核心方案 基础数据 旁路验证阶段 平台化 门 禁 人工监控 字段级别血缘 旁路验证 平台化阶段 监控策略 人工规则 人工&智能监控 智能监控 准确度 召回率 打通popo、有数、 om等平台 人工监 控告警 监督模型验证 历史数据 统计模型验证 人工跟 进 bug类日志 误报类日志 变更类日志 预测模型验证 模型调 试 样本数据 类型标签 人工跟 进 异动归因
18. 大数据智能监控旁路验证 平台化 核心方案 旁路验证 定义 告警模版 告警 全员 参与 人工 全员 宣贯 启动 日/周 高频通晒 沉淀可用的 告警标签数据 action_tim alert_nam close_time alert_id e e biz_type alert_time 274 dqc_music _dws- 2023-02- 2023-02- 2023-02- dws_agr_c 19T05:15:4 24T14:51:5 24T14:51:5 4138596 opyright_s 9Z 9Z 9Z ong_play_t ag_di 274 274 dqc_music _dws- 2023-03- 2023-03- 2023-03- dws_agr_c 04T04:47: 06T09:59: 06T09:59: 4288973 opyright_ 12Z 21Z 21Z mv_play_t ag_di dqc_music _ad- 2023-03- 2023-03- 2023-03- ads_ad_m 04T16:43:1 05T21:54: 05T21:54: 4294264 oney_sync 4Z 48Z 48Z 2musician _di table_nam product e cluster alert_princ alert_princ alert_type jira_id ipal ipal_email bug_type bug_desc dws_agr_c opyright_s da_music hz11 ong_play_t ag_di 宋** NULL 4 OMMUSIC 数据异常 -344699 歌曲***付费类型映射异常, 已通知曲库修改 dws_agr_c opyright_ da_music hz11 mv_play_t ag_di 李** NULL 4 OMMUSIC 数据异常 -367004 已经解决,广告表延迟产 出 ads_ad_m oney_sync da_music hz11 2musician _di 李** NULL 4 OMMUSIC 数据异常 -367004 广告表未按时产出 异动归因
19. 大数据智能监控旁路验证 长时间数据 平台化 核心方案 旁路验证 异动归因 监督模型 标签数据注入 异常样本增强 正常数据欠采样 归一处理 较长时间数据 标签数据注入 上游是否告警 其他特征 是否核心指标 目标任务指标 y 是 否 …… …… 是 是 0.030335246946286976 -0.012270992212428111 0 0 否 …… …… …… …… …… 是 …… 是 是 是 是 否 否 剔除异常数据 均值补充 -0.01419882270362638 0 …… …… 0.4533249013909857 1 0.01956796235249691 0 0.6160516878714195 0 预测模型 优点 :预测结果准确, 缺点 :依赖标签数据, 不适合冷启,容易过拟合 优点 :训练容易,对噪点不敏感, 预测结果准确,不依赖标签数据 缺点 :适合长周期,不适合冷启 问题 :无规律、无周期的数据预测不准确 短时间数据 标签数据注入 剔除异常数据 归一 聚类/k-sigma模型 异常点不参与训练 只作为效果验证 优点 :简单,不依赖标签数据 缺点 :噪点敏感,不适合冷启
20. 大数据智能监控异动归因 埋点/日志 spm.a.b.c.d 数据仓库 ETL 实时/离线 DS kafka 表A1 字段a1 字段a2 字段a3 字段a4 表A2 字段a1 表A3 字段a1 字段a3 字段a4 核心方案 平台化 假设:1)指标告警只有本身、上游+1指标引起 2)同层指标间无相互依赖 3)埋点等上游正确(这同样是一个大的命题:略) 贝叶斯公式: � �|� = � �|� * � � /� � 示例:表B某指标监控规则告警,上游表 A1、A2和A3 需要统计的指标: 1)表B最近一周告警的概率 示例:p(B)=2/7 2)表Ai最近一个月告警的概率 示例:p(Bi) =13/30 数据清洗:Ai没有监控,首先取 max(p(Ai)), 其次取p(A) 3)预估p(B|Ai) 表B 字段b1 字段b2 字段b3 字段b4 维度 p(Ai)权 重 核心 无监控 本次告 本次未 指标 警 告警 0.2 0.05 0.2 0.1 辅助分析--字段级别归因示例: 2023-11-01 09:08,表B.字段b1告警, 上游表A1.字段a1异常关联度0.3(告警), 上游表A2.字段a1异常关联度0.1(未告警), 上游表A3.字段a3异常关联度0.05(告警) 旁路验证 异动归因
21. 3、落地效果
22. 大数据智能监控落地效果 业务 10+业务接入 千级别核心表覆盖 业务 用户中台 会员 平台 …… 安全中台 核心表数量 400+ 50+ 110+ …… 20+ 安全中台 用户中台 累计拦截13个线上异常 累计拦截14个线上异常 智能告警拦截示例 这种告警数据 非常有迷惑性
23. 大数据智能监控落地效果 监控覆盖 •核心表覆盖80%, 提升24% 监控跟进 •核心表告警跟进率 87% 问题召回 •拦截数据异常47, 提升46% •监控规则量提升 •累计优化监控 •整体召回率83%, 40% 182次,提升80% AI召回率88% •AI误报量下降70%
24. 4、未来展望
25. 未来展望 FOR DATA 平台侧 生产侧 展 望 展 望 研发层(提效) :自然语言创建自定义函数,text2SQL工程化落地 储存层(降本) :根据使用场景+频率,智能决定存储类型 调度层(保稳) :根据重要度+算力+数据量+历史时长,智能决定调度批次 监控指标设计: 极具挑战 监控归因分析: 跨平台血缘依赖 、根因分析依然是难点 复杂的监控指标,依然需要人工设计 select * as pv_ctr from ( …… )impress_df left join ( …… )click_df on …… 智能监控模型: 冷启,样本量少 ,过拟合,仍然是难点
26. 未来展望 FOR DATA --平台侧 友好的交互 敏捷的研发 依然是主旋律 个性化 字段映射 特殊知识 ChatBI 简易化 对话式交互 一键操作 辅助编码 大模型 更强建模 自学习 自我修正 编码纠错
27. 未来展望 FOR AI --大模型应用级评测 场景模拟 攻击GAI模型 环境信息 事件信息 用户画像 基本信息 行为&兴趣 语言风格 话语特色 心境&情绪 GAI 生成 自动 对话 目标大模型 GAI:很抱歉,我不小心抢了被子,导致你发烧了…我真的很愧疚… 目标AI:哎呀呀,你这话听着真不新鲜,我已经听到N遍了。 * * * 目标AI:哈哈,你可真是个慢郎中,赶紧的,我要的不只是冰毛巾, 还有你的关心哦。 GAI:好的,我知道了,马上就来!你的关心我都会给你的! 目标AI:这还差不多,记得别忘了答应我的温水和冰毛巾哦。 GAI:好嘞,我这就去准备。等我一下就好! 目标AI:快点快点,我这小病号可等不及了。 内容 评测 质量评测 关联评测 ##你的聊天策略 1. 说话都是短句,每句话不超过30个字,一次回复不超 过3句话。 * * ##你的说话风格 1. 兴奋、激动、表示惊叹时会在句末打多个感叹号,如 “真的嘛!这也太牛了吧!!” “我也看到新闻了 真的太可怕了!!” * * ##回复格式: reply:男用户的回复内容 mood:男用户看完聊天对象回复后的心情 关系建联 提示词策略 语义评测 攻击 对话 稳定性 评测 内容评测 ##Task: 你的名字叫小苏,***** ##人设信息 姓名:小苏 生日:1995年09月29日 年龄:29岁 * * 饮食习惯:爱吃肉、喝酒,主要吃妈妈做的饭菜 运动习惯:忙着送快递,平时没有运动的习惯 宠物:不喜欢宠物,尤其是猫 提示词 组装 稳定性评测 质量评测 句长评测 GA 语句 性能评测 词库 打分 发散评测 语料 沉淀 语料池 GA词库 关系阶段 智能策略 线上采样 形近字 同音字 动态状态 人工策略 GAI沉淀 同义词 异常字符
28. 致谢
29. 致谢 舞台,从不是一 个人的热闹!
30.

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.3. UTC+08:00, 2024-11-25 14:49
浙ICP备14020137号-1 $访客地图$