网易基于DataOps的敏捷、高质量数据开发实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网易基于DataOps的开发治理一体化实践 郭忆 | 网易大数据 EasyData 产品技术负责人
2.
3. 郭忆 • 网易数帆 数据开发与管理平台 EasyData 产品负责人 • 研究生毕业于天津大学,计算机应用专业 • 加入网易12年,一直从事数据相关系统设计和研发 • 构建了网易数据中台支撑技术体系,支撑了网易云音乐、严选、传媒、 有道的数据中台项目建设 • 多次受邀在全球互联网架构大会(GIAC)、全球开发者大会 (QCon)、中国数据库大会(DTCC)、系统架构师大会(SACC) 分享大数据建设实践经验 • 极客时间专栏《数据中台实战课》作者,订阅量超过21000+
4. Agenda • 网易数帆 • DataOps 1.0:敏捷、高质量开发实践 • DataOps 2.0:开发治理一体化实践 • DataOps 行业实践
5. 网易杭州研究院 记忆科技 音乐 电商 教育 物流 农业 零售 制造 前瞻技 术研究 华夏银行 传媒 办公 公共数据建设 邮箱 电力 工具产品平台 网易数帆 教育 金融 公共技 术研发 医药 数据建设方法论 创新产 品孵化
6. 网易数据生产力的实践历程 2006 分布式数据库、分布式文件系 统、分布式搜索引擎,三驾马 车支撑了网易互联网2.0时代 的产品 2014 2018 大数据平台上线,加速了大数据 网易严选、音乐、有道、 规模化应用 新闻等业务相继开始数 据中台构建,网易发布 “全链路数据中台” 解决 方案 2009 开始基于Hadoop做数据分 析以及运维 2017 网易大数据正式对外 商业化 2022 网易发布 开发治理一 体化“数据治理 2.0”解 决方案 2020 网易实践“DataOps”,加 速数据分析效率,提 升数据开发质量
7. 数据生产力 • 数据生产力: 广义上:通过使用数据带来组织生产力提升。 狭义上:企业员工使用平台工具采集数据、处 理数据,数据分析以及管理数据的能力。 • 一个愿景: 人人用数据,时时用数据 • 三个方法论: DataOps、DataFusion、DataProduct
8. 产品矩阵 机器学习 有数BI CDP 数据门户 可视化报表 自助取数 移动端 数据填报 交互式建模 在线推理 活动管理 人群圈选 智能决策 驾驶舱 数据准备 数据大屏 复杂报表 可视化建模 训练任务 活动分析 渠道触达 模型设计中心 数据服务 数据标准 元数据管理 数据地图 指标系统 数据质量 数据资产中心 数据元 元数据采集 数据目录 原子/派生 稽核监控 价值分析 维度建模 数据脱敏 API发布 数据字典 元数据注册 数据检索 版本管理 质量报告 成本分析 量化评估 安全等级 服务编排 数据分类 元数据扫描 资产门户 指标字典 强弱规则 量化ROI 规范设计 敏感识别 服务权限 标准发布 元数据发布 数据血缘 指标关联 质量工单 数据下线 发布审核 权限申请 服务监控 数据安全 基于DataOps 全生命周期数据开发 数据集成 spark 任务运维 数据测试 数据开发 NDH Impala hive Yarn/K8s Arctic(实时数据湖) HDFS/S3 flink 自动化运维管理
9. 他们都在用网易大数据 华泰证券 杭州银行 东北证券 渣打银行 浙江机电 广发证券 台州银行 民生证券 泰康资产 五菱汽车 国新证券 华夏银行 天风证券 比心 华夏银行 长安汽车 浙商银行 恒丰银行 北京银行 江苏农信 浙江日报 浙交规 广汽汽车 吉利汽车 南京大数据 路特斯汽车 中国能建投 南方日报 浙江移动 记忆科技 华存 绿瘦 好未来 九州通 杭州联合银行 马上消费 福建电力 浙江电信 科沃斯 华福证券 温氏集团
10. Agenda • 网易数帆 • DataOps 1.0:敏捷、高质量开发实践 • DataOps 2.0:开发治理一体化实践 • DataOps 行业实践
11. DataOps:血淋淋的教训 按期交付率 数据问题 延期交付 数据开发 65% 数据开发任务变更导致的生产环境 65% ! 按期交付 30% 的需求交付延期 数据问题占比达到 • 在某电商业务中,业务三单有礼,因为上游任务变更,导致下游涉及资损数据计算异常,造 成P1级别>30W生产事故。 • 在某电商业务中,由于订单标签任务依赖配置缺失,导致下游任务空跑造成数据异常,给老 客发了红包,造成P1级别> 20W的资损。
12. DataOps:为什么会出现这些问题? 缺少全链路影响分析 任务依赖复杂,严选有9540个任务依赖上游,下游任 务有17层任务依赖,数据开发在变更任务的时候,根 本不知道下游涉及的影响。 缺少发布管控 任务的发布缺少发布审核,涉及核心资产的任务变 更缺少管控。任务发布上线更改随意,没有经过发 布审核,Code Review相关环节,甚至核心任务变 更,相关负责人都不知道。。 缺少自动化数据测试 任务依赖容易缺失 任务变更缺少数据测试,因为缺少自动化工具的支撑, 导致很多任务,未经过严格的数据测试,甚至有16% 的任务都未运行过,就提交上线,最终导致生产事故 发生。 任务依赖容易缺失,任务依赖配置复杂,很容易造 成缺失,任务空跑,最终下游数据出错。
13. DataOps • DataOps是一种将软件工程CI/CD的方法融入数据开发的流程,基于自 动化的数据测试、任务发布等技术,构建数据发布流水线,使得数据 开发效率更高、交付更加频繁,交付质量更有保障。 • DataOps要解决的问题: • 研发过程中需求频繁变化 DataOps • 阶段性成果能够更快速的被验证 • 通过引入数据测试,将质量保障前置 • 敏捷、质量
14. DataOps:数据发布流水线 DataOps Continuous Integration 编码 Continuous Delivery 编排 Continuous Deployment 代码 审查 测试 发布 审核 部署 上线 依赖调度 • 数据比对 • SQL Scan • 发布包 • 基于优先级资源调度 智能任务依赖推荐 • 数据沙箱 • Code Reivew • 全链路影响分析 • 智能诊断 • 参数组 • 自动化回归 • 自定义审核流程 • 基线预警 • 资源组 • 数据形态探查 • SLA • 数据开发IDE • 多版本管理(含调度) • • UDF Studio • 任务模板(组件库) • • 效能工具 • 流程协作
15. 多环境一键发布
16. 数据沙箱 开发平台 • 生产、测试物理集群隔离,互不影响 调度集群 • 开发集群任务直接引用生产集群脱敏数据测试, 不需要导数据 Yarn_Dev • 开发集群无法写入生产集群数据,避免生产集 群数据被污染 开发模式 • 开发集群和生产集群,一套代码,直接运行, 不需要发布修改代码 HDFS_Dev Meta Store (共 享元 数据) Yarn 生产模式 HDFS
17. 数据测试 • 数据形态探查 • 值域 • 枚举值分布 • 空置比例 • 重复情况 • 最大长度/最小长度 • 数据比对 • 全量/抽样 • 主键关联/MD5关联
18. SQL Scan • 跨层依赖:dws/ads/dm 直接读取 ods 层表 • 全表扫,不带分区 • 使用固定分区 • 对明细表 lateral view explode • 关联 Key 应该至少是一个表的唯一键,避免笛卡尔积 SQL 静态扫描 • 避免使用 distinct,使用 group by 改写 • 避免出现多个 full join,full join 可以用 union all 优化 • 注意关联 Key 在关联各表内的分布情况,典型的情况是 空值或者0值,避免数据倾斜 • 未使用压缩 • 禁止 select * • 临时表任务结束未删除 自定义规则扩展……
19. Agenda • 网易数帆 • DataOps 1.0:敏捷、高质量开发实践 • DataOps 2.0:开发治理一体化实践 • DataOps 行业实践
20. 数据消费依然存在问题 现象 现象 现象 • 37%的表存在命名不规范问题 • 数据开发自行开发所需数据表,公共 • 数据质量稽核规则覆盖率只有10% • 相同的字段,有8种以上的字段命名 • 没有定义数据的安全规范,数据分级 逻辑未沉淀,重复建设多 • 近义指标膨胀 • 70%的相同数据项,稽核规则和/或阈 值设置不一致 分类无法得到实施 原因分析 原因分析 原因分析 • 缺乏标准,建模随意 • 传统建模为了满足业务快速交付,开 • 质量稽核规则没有配置依据,依赖人 发流程约束收效甚微 规范缺失 烟囱式数据架构 员对数据的理解程度 质量规则覆盖不佳
21. 数据开发与治理一体化 先设计,后开发,先标准,后建模 将数据治理的流程自然融入数据开发的全生命周期过程中,在数据开发的过程中就完成数据治理 治理套件 稽核规则定义 稽核规则推荐 字段类型、 分类、数据 格式规范 表命名、 分层分类 字段类型映射 规范(快速建 表) 数据处理规范 (字段映射、按格 式处理) 数据安全规则 开发套件 安全中心 数据质量 安全等级 安全规则 资产等级 质量规则 数据测试报告 发布审核 数据标准 元模型、词根 数据元、数据字典 资源分类 引入或设计 指标设计 模型设计 业务指标 原子指标 衍生指标 复合指标 维度 事实 模型关系 设计阶段 数据传输 传输过程 静态脱敏 自助分析 离线开发 数据测试 任务发布 数据质量监控 临时查询 动态脱敏 开发 测试 上线 日常监控
22. 开发治理一体化:以数据标准为根本 数据标准设计内容 数据标准 命名规范 格式规范 值域规范 质量规范 安全规范 数据标准打通各模块的方式 • 通过数据元承载格式及值域规范并自动生成稽核规则 • 根据表绑定的数据标准所关联的稽核规则,自动添加到表的稽核监控 • 数据建模直接应用数据标准中数据元和元模型 • 根据表绑定的数据标准所关联的安全规则,自动应用到数据脱敏任务 数据标准 需求 数据抽取 数据探查 数据建模 数据安全 数据开发 数据质量 任务发布 持续运维
23. 开发治理一体化:以全生命周期元数据为底座 全生命周期的元数据接受了来自设计、开发、消费过程中的所有元数据,让元数据更加完备,形成数据资产 数据生命周期 统一元数据 找得到 设计过程元数据 数据抽取 数据标准 数据质量 数据安全 关联的标准 模型定义 安全等级 …… 开发过程元数据 血缘 物理表定义 质量报告 …… 数据探查 数据开发 看得懂 信得过 消费过程元数据 数据建模 数据服务 需求满足率 资产活跃度 用户评价 …… 管得了
24. 两种治理模式的对比 传统治理模式 先污染后治理 • 随着需求增多,口径不统一越严重 运动式治理 • 缺统一衡量标准,价值难以度量 • 无持续优化机制 一体化模式 一步到位,长效解决
25. 开发治理一体化:网易落地成果 规范 效率 质量 • 先标准后建模,确保了表、字段、指标命名 • 先设计后开发极大程度保证了公共层逻辑下沉 • 自动根据数据标准生成质量稽核规则 48.7% 的一致性及规范性 • 相同需求对应指标数量缩减 80% ,字段及指标的安 全等级已完成 100% 设置 • 云音乐模型复用度从2.4%提升到 • 字段标准化率达到 下线 3.4W 个模型 9.6% , • 规则覆盖率达到 率提升约 65% ,单个任务的配置效 70% • 严选质量覆盖率提升 100%
26. 开发治理一体化:给管理者的建议 三个核心原则 三大落地支撑 • 关注数据消费,成果可衡量,治理可改进 • 科学的评估体系:构建资产健康分,让治理价值可量化 • 开发治理一体化,保障数据流水线高质量运行 • 完善的工具平台:数据标准产品化 • 先设计,后开发,先标准,后建模 • 持续的数据运营:组织流程打通,数据文化建设
27. 数据文化
28. Agenda • 网易数帆 • DataOps 1.0:敏捷、高质量开发实践 • DataOps 2.0:开发治理一体化实践 • DataOps 行业实践
29. 浙江电信 在引入网易一站式工具平台前面临问题: • 数据标准、数据质量与数据开发严重脱节,规范只能 停留在字典层面,无法融入数据生产的流程中,不能 有效的落地执行和监督。 • 不同厂商,不同工具之间严重割裂,数据质量的稽核 规则无法和数据标准中数据元的值域约束打通,数据 标准中数据元无法跟数据建模工具无法联动,元数据 管理中的数据安全等级和安全中心的数据脱敏无法联 动。 思特奇 调度工具 开发工具 鸿程 数据血缘 元数据管理 亚信 国信 质量管理 主数据管理 其他 多厂家、工具割裂 鸿程 思特奇 国信 亚信 分公司 其他 MPP调度 智慧人力 数据标签 政企应用 本地应用 网络数据 上传集团 业务稽核 精准营销 星级维系 网管采集 BSS数据 万号数据 MSS数 据 资产落地 ……
30. 数据开发与治理一体化 由数据中台统一为仓库、经分、网络集群提供数据采集、建模、开发、调度、治理等一体化能力。在生产过程中对于程序上下线,建 表等操作实现在线化,流程化操作一方面减少人工提升效率,一方面完善数据管控的过程。 生 产 流 程 审核上线 5-提交审核 开发人员建立上线任 务,提交审核 1-模型定义 2-构建表结构 创建模型基础信息 添加模型字段信息 定义模型的元数据 提供手工/批量方式 管 控 流 程 程序测试 程序开发 模型设计与开发 3-编辑模型应用程序 4-数据在线测试 6-上线运行 固化常用程序命令,拖拽式使用 图形化界面,自由配置处理逻辑 提供WEB界面可视化测试功能;查看执 行时长、执行状态等信息,方便开发 人员调试,性能分析 运维人员审核通过, 标 准 规 范 执 行 上线运行 在上线时按照标准规范进行控制,包括命名规范,信息完整 性,合理性等,不符合标准规范则不予上线 将数据开发与数据治理有机结合起来,既是对开发过程的管控,也是保障数据质量的有效方法。 数据中台已有用户数270+人,已迁移上线作业数8000+个,数据质量稽核数100+个,自助分析累计60000+次, 已导入元数据模型数1500+套,具备作业调度和元数据统一管控能力。
31. 开发治理一体化:某券商落地成果 治理目标:数据资产化、数据价值化、数据智能化 三大痛点 • 标准:公司内数据孤岛现象严重,阻碍 重要举措 • 数据内部共享 • 质量:数据质量难以及时满足业务预期, • 计7个词根新增159个,制定两套数据 业务流程:针对存量数据、新增数据制 数据统一管理 • 标准分类方案。 • 体化的数据中台 数据质量管理:累计沉淀400余项数据 质量规则。 产品工具:将整个数据治理流程贯穿于 各个子产品模块中,打造开发与治理一 数据标准管理:基础数据标准179个, 指标数据72个,搭建统一的公共字典合 定不同的治理流程,并做到仓内仓外元 安全:难以兼顾数据流通和数据安全的 平衡 • 置落实数据治理工作、权责分担机制 无法助力数据挖掘产生价值 • 组织架构:结合企业组织架构及人员配 落地成果(截至2022年) • 数据安全管理:基于数据分级分类的数 据服务审批流程上线,基于脱敏数据在 开发环境进行开发和任务发布的研发流 程打通。
32. Thank You

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-09 10:26
浙ICP备14020137号-1 $Carte des visiteurs$