网易传媒数据管治建设实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 网易传媒数据管治建设实践 盖建伟 数据研发
2. 目录 CONTENT 01 传媒业务介绍 03 数仓建设演进 02 数据管治体系 04 数据管治展望
3. 01 传媒业务介绍
4. 业务介绍
5. 数据架构
6. 02 数仓建设演进
7. 数仓建设演进 2.0 1.0 背 • • 内容载体单一,数据丰富度低、量级小 公司整体运营数据、临时取数需求 景 • 无数仓团队,统一由数据平台组支持 • 数据需求响应度低 问 • 数据口径不统一 题 • 计算资源成本高 • 从0到1搭建数仓团队,数仓建模、数仓开发、数据BI 效 • 明确数据分层、业务过程视角确定数仓主题 果 • 统计逻辑底层封装,口径一致,影响可控
8. 数仓建设演进 2.0 3.0 背 • 公开课业务、自媒体平台、泛资讯转型 • 数据丰富度高、量级大 景 • 运营精细化导向、数据产品化 • 临时取数需求响应低 问 • 外部数据扩散使用 题 • 缺少分析性主题设计 • 确定业务过程主题、分析主题、应用主题 效 • 简化数仓层级,ODS引入视图,降低外部影响 果 • 宽表模型产品输出,临时取数需求收敛
9. 03 数据管治体系
10. 开展数据管治的背景 开展数据治理的必要条件? 如何开展数据治理? 如何评价数据治理的效果?
11. 数据管理框架 A 数据 M A D 元数 指 管理 据 南 驱 体系 动
12. 数仓建模与设计之研发流程 应 数据 用 环 的闭 系统
13. 元数据管理
14. 元数据管理之元数据构成 q 元数据组成 q 表元数据组成
15. 元数据管理之数据地图
16. 元数据管理之数据地图
17. 数据资产管理之资产等级 q 数据资产等级定义 q 相关方
18. 数据资产管理之落地实践 • • L3 L3 L3 L3 L3 所有核心指标、维度通过血缘上溯到的所有数据都是同等级别的数据,如果一份数据出现在多个应用场景中,则遵循就高原则。 为了保证分级的ROI,核心数据资产(L4、L3)级别的数据占比会控制在30%内,会有准入准出流程。
19. 资源成本治理之存储 q 存储成本治理 - 落地 • 存储使用监控 • 僵尸文件管理 • 生命周期管理 • 存储格式压缩 • 数据模型优化 存 物理 低 2 储降 5%
20. 资源成本治理之计算 q 计算成本治理 – 监控大盘
21. 资源成本治理之计算 q 计算成本治理 – 落地 • Hive On Spark • 僵尸任务治理 • TOP任务优化 • 有数抽取迁移 • 邮件任务迁移 降低 3 率 用 CPU 使 5%
22. 资源成本运营体系 - 事前 q 相关方 q 研发规范&培训机制 《数据采集研发规范》 《离线数据研发规范》 《基线任务管理规范》 《有数抽取任务规范》 《SQL任务优化指南》 研发规范流程宣讲
23. 资源成本运营体系 - 事中 q 任务审批流程 提交 5+ 阻断6 任务 范 规 不
24. 资源成本运营体系 – 事后 q 成本主动治理 • 资源使用排行榜 • 僵尸数据下线自动化周知
25. 04 数据管治展望
26. 数据管治建设展望
27. 非常感谢您的观看

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.1. UTC+08:00, 2024-05-17 15:20
浙ICP备14020137号-1 $访客地图$