网易云音乐数据研发模式DataOps落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网易云音乐数据研发模式 DataOps落地实践 网易云音乐 /宋东辉
2. 网易云音乐 /宋东辉 资深测试开发工程师 浙江大学硕士毕业之后,加入支付宝,参与蚂蚁端稳定性 Sapienz 项目建设,数字内容治理黑鸟项目核心成员,双12大 促主要质量负责人之一。 2021年加入网易云音乐,云音乐大数据质量建设和数据治理 负责人,发起并牵头多方共建 DataOps 项目,提升了数据研 发效率和质量水位。
3. 1、背景简介 目 录 2、方案介绍 Contents 3、落地效果 4、未来展望
4. 1、背景简介
5. 大数据的重要性 用户 画像 黑产 推荐 安全 广告 大数据 平台 会员 曲库 结算 AB 版权 算法 服务 搜索 商业 分析 核心 指标
6. 大数据的框架 客户端 DIM层 用户日志 系统日志 服务端 用户日志 系统日志 开放平台 三方日志 系统日志 数据库 MySQL DDB 数据 生产 ODS 层 BI平台 DWD层 DWS层 ADS层 业务主题域1 分析主题域1 数据集市1 明细事实表1 明细事实表2 …… 明细事实表N 轻度汇总事实表1 轻度汇总事实表2 …… 轻度汇总事实表N 数据集市2 圈选平台 数据 消费 机器学习 平台 数据集市3 业务主题域N 分析主题域1 明细事实表1 明细事实表2 …… 明细事实表N 重度汇总事实表1 重度汇总事实表2 …… 重度汇总事实表N 有数平台(网易数帆) AB实验 平台 数据集市N 数据服务 平台
7. 大数据的痛点 需求源 埋点 需求80+/月 现状 数据研发 我就要这 样子! 商业分析 明确数据领域 定义数据指标 构建维表 核心KPI百+ 数据开发 业务 任务开发 数据测试 调度部署 A级以上活动 重要C端业务 痛点 数据建模 日均百+变 更! 数据消费 算法 主站搜索 主站推荐 …… 指标不正 确、数据未 产出……客 诉舆情! 业务 歌曲百科 个人主页 播客 …… 业务感知 研发感知 • 数据线上问题平均10+个/月 • 线上问题平均解决时长高达44h • 需求延期交付比高达50% • 回刷数据计算成本单次万元级别 • 研发自测效率低,准出标准不清晰 • 线上问题感知滞后
8. 2、方案介绍
9. 2.1、数据研发标准
10. 数据研发标准 需求文档 数据模型文档 分工&排期 代码扫描 测试数据&环境 静态资源检测 生命周期检测 血缘检测 监控检测 数据用例检测 门 禁 门 禁 门 禁 评估体系: 研发周期、延期 率、问题数 需求阶段 过程 节点 动作 研发阶段 测试阶段 准出标准: 覆盖率、规范 性、数据质量 生产阶段 提需求 模型设计 开发 数据测试 发布 运维 建需求单 需求评审 项目排期 设计指标 设计模型 基线评估 模型开发 调度配置 监控配置 血缘配置 唯一性 准确性 完整性 一致性 及时性 数据验收 发布审批 响应线上问题 故障定级定责 监控治理 基线治理 复盘&质量月报
11. 2.2、平台化
12. 平台化DataOps 整体框架 卡点能力 事后巡检 研发效能 目标: 协调多方高效合作, 辅助研发敏捷开发! 研发周期 长! 效能 大盘 建需求单 关联任务单 线上问题 增多! 研发质量 有提升! 数据测试 人力成本 增加! 通过 告警 跟进 需求 评审 离线 模型设计 &开发 绑定任务 ods dwd dws select * from music_log ads 6点基线 血缘 检测 代码 检测 同意 发布 风险 审核 监控 告警 生产 卡点 发布 风险 巡检 ods dwd dws ads 6点基线 闭 环 治 理 select * from music_log
13. 卡点自动化 整体框架 卡点能力 事后巡检 pipeline 维度 代码扫描 静态检测 血缘检测 监控检测 数据用例 代码规范 代码质量 代码性能 变更点提示 调度配置 血缘配置 基线监控配置 表&分区配置 表&任务规范 血缘关系 链路基线风险 依赖风险 生命周期 监控覆盖率 监控误报率 告警跟进率 链路覆盖率 用例成功率 数据异常 研发效能
14. 卡点自动化- 代码扫描 整体框架 卡点能力 研发效能 事后巡检 代码规范类 卡点维度 •代码质量分 •major问题 规则配置 代码治理 通用规则配置 dataOps卡点 数据线上问题 规则沉淀 自定义规则配置 异常等级配置 •语法规范 •禁止创删表 代码质量类 •select和插入字段名称不一致 •关联ON字段类型不一致 代码性能类 •禁止select * •禁止DISTINCT 同步 加载 •禁止分区表全表查 代码信息 代码规范 结果分析 扫描执行 数仓代码规范 研发阶段:开发自查 风险模版 卡点阶段:强制整改 生成抽象语法树 规则信息 代码检测 表元信息
15. 卡点自动化- 数据测试用例 整体框架 卡点维度 用例治理 数据用例 •用例覆盖率 dataOps卡点 人工用例 •用例稳定性 •用例拦截问题 数据线上问题 用例沉淀& 优化 事后巡检 研发效能 覆盖率不达标 自生成用例 模版用例 拉取资源 同步 卡点能力 变更任务源 血缘DAG 风险识别 最小执行集 检测维度 •唯一性 •阈值 •空值率 •去重量 •长度范围 •分布趋势 异常识别 用例执行 精准 模版规则 智能调度 智能规则 生成最小执行集 模版用例自生成
16. 卡点自动化- 数据监控治理 卡点维度 •核心指标覆盖率 •监控误报次数 •监控周跟进率 整体框架 核心域的表指标 dataOps卡点 核心KPI指标 数据线上问题 C端业务依赖指标 指标 体系 用 户 会 员 覆盖率治理 字段类 •完整性校验 告警通知 告警跟进流程 告警质量大盘&月报 平台化 监控配置 模版规则 自定义规则 版 权 内 容 监控优化 监控平台 研发效能 事后巡检 指标梳理 监控治理 同步 卡点能力 •有效性校验 •唯一性 •范围校验 跨字段类 •关联性校验 跨表类 •一致性校验 •总量校验 直 播 社 区
17. 变更风险巡检 “轻量”变 更,需要 兜底! 整体框架 卡点能力 事后巡检 研发效能 表变更类 闭环治理 规则配置 dataOps异常分析 数据线上问题 表规则 规则沉淀 研发反馈 任务规则 •删除 •新建 •编辑 任务变更类 •删除 •新增 •编辑静态资源 •编码 表变更记录 巡检平台 平台化 任务变更记录 变更识别 高风险变更识别 定时调度 风险通知 变更匹配 关联分析 风险判定
18. 研发效能大盘 可度量, 才能优化 它! 整体框架 评估原则 指标体系 全局规则 指标大盘 数据研发维度 反映问题规则 月报 生产阶段维度 服务度量目标规则 需求交付维度 数据研发维度 生产阶段维度 •月需求量 •线下bug数 •线上bug数 •月需求延期量 •bug解决时长 •问题修复时长 •月需求延期率 •发布申请拒绝率 •表监控覆盖率 •月需求自测率 •月需求均交付周期 事后巡检 效能大盘 需求交付维度 分层级设计规则 卡点能力 研发效能
19. 3、落地效果
20. 落地效果 研发效率 • 需求平均研发周期 从39d->33d • 需求交付逾期率降 低到30% 研发质量 数据监控 • 数据线上问题降低 • 新增监控规则600+ • 业务质量意识提升 • 整体监控月度误报 • 研发规范意识提升 37% • 研发规范原因引起 的线上问题量降低 50% • 线上问题平均解决 时长从44h->9h 量下降30% • 拦截有效数据异常 32例 • 线上问题召回率约 70% 业务意识 • 服务态度改善
21. 4、未来展望
22. 未来展望 源数据2 源数据1 数据聚合1 智 能 归 因 数据聚合2 业务维度1 异动智能感知 oneCode 难点 源数据3 业务维度2 智能监控 • • • • 提升覆盖率工作量大 人工规则监控误报量大 业务变动频繁 告警定位难 难点 思路 • 业务逻辑复杂 • 人工code效率低 • 表&指标规范 • ChatGPT的L2级辅助编码 思路 • 构建智能监控模型 • 构建告警指标级归因
23. 致谢
24. 致谢 舞台,从不是一 个人的热闹!
25.

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-09 10:04
浙ICP备14020137号-1 $Carte des visiteurs$