网易传媒数据管治建设实践
如果无法正常显示,请先停止浏览器的去广告插件。
相关话题:
#网易
1. 网易传媒数据管治建设实践
盖建伟 数据研发
2. 目录 CONTENT
01 传媒业务介绍 03 数仓建设演进
02 数据管治体系 04 数据管治展望
3. 01
传媒业务介绍
4. 业务介绍
5. 数据架构
6. 02
数仓建设演进
7. 数仓建设演进
2.0
1.0
背 • • 内容载体单一,数据丰富度低、量级小
公司整体运营数据、临时取数需求
景 • 无数仓团队,统一由数据平台组支持
• 数据需求响应度低
问 • 数据口径不统一
题 • 计算资源成本高
• 从0到1搭建数仓团队,数仓建模、数仓开发、数据BI
效 • 明确数据分层、业务过程视角确定数仓主题
果 • 统计逻辑底层封装,口径一致,影响可控
8. 数仓建设演进
2.0
3.0
背 • 公开课业务、自媒体平台、泛资讯转型
• 数据丰富度高、量级大
景 • 运营精细化导向、数据产品化
• 临时取数需求响应低
问 • 外部数据扩散使用
题 • 缺少分析性主题设计
• 确定业务过程主题、分析主题、应用主题
效 • 简化数仓层级,ODS引入视图,降低外部影响
果 • 宽表模型产品输出,临时取数需求收敛
9. 03
数据管治体系
10. 开展数据管治的背景
开展数据治理的必要条件? 如何开展数据治理?
如何评价数据治理的效果?
11. 数据管理框架
A 数据
M
A
D
元数
指
管理
据
南
驱
体系
动
12. 数仓建模与设计之研发流程
应
数据
用
环
的闭
系统
13. 元数据管理
14. 元数据管理之元数据构成
q 元数据组成
q 表元数据组成
15. 元数据管理之数据地图
16. 元数据管理之数据地图
17. 数据资产管理之资产等级
q 数据资产等级定义
q 相关方
18. 数据资产管理之落地实践
•
•
L3
L3
L3
L3
L3
所有核心指标、维度通过血缘上溯到的所有数据都是同等级别的数据,如果一份数据出现在多个应用场景中,则遵循就高原则。
为了保证分级的ROI,核心数据资产(L4、L3)级别的数据占比会控制在30%内,会有准入准出流程。
19. 资源成本治理之存储
q 存储成本治理 - 落地
• 存储使用监控
• 僵尸文件管理
• 生命周期管理
• 存储格式压缩
• 数据模型优化
存
物理
低 2
储降
5%
20. 资源成本治理之计算
q 计算成本治理 – 监控大盘
21. 资源成本治理之计算
q 计算成本治理 – 落地
• Hive On Spark
• 僵尸任务治理
• TOP任务优化
• 有数抽取迁移
• 邮件任务迁移
降低 3
率
用
CPU 使
5%
22. 资源成本运营体系 - 事前
q 相关方
q 研发规范&培训机制
《数据采集研发规范》
《离线数据研发规范》
《基线任务管理规范》
《有数抽取任务规范》
《SQL任务优化指南》
研发规范流程宣讲
23. 资源成本运营体系 - 事中
q 任务审批流程
提交
5+
阻断6
任务
范
规
不
24. 资源成本运营体系 – 事后
q 成本主动治理
• 资源使用排行榜
• 僵尸数据下线自动化周知
25. 04
数据管治展望
26. 数据管治建设展望
27. 非常感谢您的观看