网易传媒数据管治建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 网易传媒数据管治建设实践
盖建伟 数据研发
2. 目录 CONTENT
01 传媒业务介绍 03 数仓建设演进
02 数据管治体系 04 数据管治展望
3. 01
传媒业务介绍
4. 业务介绍
5. 数据架构
6. 02
数仓建设演进
7. 数仓建设演进
2.0
1.0
背 • • 内容载体单一,数据丰富度低、量级小
公司整体运营数据、临时取数需求
景 • 无数仓团队,统一由数据平台组支持
• 数据需求响应度低
问 • 数据口径不统一
题 • 计算资源成本高
• 从0到1搭建数仓团队,数仓建模、数仓开发、数据BI
效 • 明确数据分层、业务过程视角确定数仓主题
果 • 统计逻辑底层封装,口径一致,影响可控
8. 数仓建设演进
2.0
3.0
背 • 公开课业务、自媒体平台、泛资讯转型
• 数据丰富度高、量级大
景 • 运营精细化导向、数据产品化
• 临时取数需求响应低
问 • 外部数据扩散使用
题 • 缺少分析性主题设计
• 确定业务过程主题、分析主题、应用主题
效 • 简化数仓层级,ODS引入视图,降低外部影响
果 • 宽表模型产品输出,临时取数需求收敛
9. 03
数据管治体系
10. 开展数据管治的背景
开展数据治理的必要条件? 如何开展数据治理?
如何评价数据治理的效果?
11. 数据管理框架
A 数据
M
A
D
元数
指
管理
据
南
驱
体系
动
12. 数仓建模与设计之研发流程
应
数据
用
环
的闭
系统
13. 元数据管理
14. 元数据管理之元数据构成
q 元数据组成
q 表元数据组成
15. 元数据管理之数据地图
16. 元数据管理之数据地图
17. 数据资产管理之资产等级
q 数据资产等级定义
q 相关方
18. 数据资产管理之落地实践
•
•
L3
L3
L3
L3
L3
所有核心指标、维度通过血缘上溯到的所有数据都是同等级别的数据,如果一份数据出现在多个应用场景中,则遵循就高原则。
为了保证分级的ROI,核心数据资产(L4、L3)级别的数据占比会控制在30%内,会有准入准出流程。
19. 资源成本治理之存储
q 存储成本治理 - 落地
• 存储使用监控
• 僵尸文件管理
• 生命周期管理
• 存储格式压缩
• 数据模型优化
存
物理
低 2
储降
5%
20. 资源成本治理之计算
q 计算成本治理 – 监控大盘
21. 资源成本治理之计算
q 计算成本治理 – 落地
• Hive On Spark
• 僵尸任务治理
• TOP任务优化
• 有数抽取迁移
• 邮件任务迁移
降低 3
率
用
CPU 使
5%
22. 资源成本运营体系 - 事前
q 相关方
q 研发规范&培训机制
《数据采集研发规范》
《离线数据研发规范》
《基线任务管理规范》
《有数抽取任务规范》
《SQL任务优化指南》
研发规范流程宣讲
23. 资源成本运营体系 - 事中
q 任务审批流程
提交
5+
阻断6
任务
范
规
不
24. 资源成本运营体系 – 事后
q 成本主动治理
• 资源使用排行榜
• 僵尸数据下线自动化周知
25. 04
数据管治展望
26. 数据管治建设展望
27. 非常感谢您的观看