数帆数据中台逻辑数据湖的实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 数帆数据中台逻辑数据湖的实践
李卓豪
2. 目
数
字
世
界
新
动
01 关于网易数帆
02 为什么做逻辑数据湖
03 怎么做逻辑数据
04 未来规划
力
录
3. 关于网易数帆
4. 网易数帆:网易旗下数字化转型技术与服务提供商
云原生软件生产力平台
网易数帆源自网易杭州研究院,是网易数字经济的创新载体和技术孵化
全链路大数据生产力平台
器,致力于成为领先的数字化转型技术与服务提供商,为企业数字化转
型提供技术动力。
依托网易集团二十余年互联网技术积累,网易数帆聚合云计算、大数据、
人工智能等新型数字化技术,聚焦提供开放、稳定、安全、高效的数据
多媒体智能开放平台
智能、软件研发、基础设施与中间件等基础软件,致力于帮助企业客户
成功实现数字化转型。
全维度质量效能平台
5. 2006
分布式数据库、分布式文件系
统、分布式搜索引擎,三驾马
车支撑了网易互联网2.0时代
的产品
2014
大数据平台、有数BI上线,加速
了大数据规模化应用
2009
国内最早一批开始基于
Hadoop 开发、运维的互
联网公司
2018
网易严选、考拉、音
乐、新闻等业务相继
开始数据中台构建
2017
网易大数据正式对外
商业化
2020
网易提出“数据生产力”
理念,倡导“人人用数
据、实时用数据”
2019
网易发布“全链路数据
中台” 解决方案
6. 服务升级
中间件
数据平台
数据中台
数生产力
技术发展
逻辑数据湖
湖仓一体
7. 华夏银行
音乐
电商
教育
金融
零售 农业
物流 教育
能源
记忆科技
传媒
办公
工具产品平台
邮箱
制造
数据建设方法论
网易有数
医药
公共数据建设
8. &
业务场景丰富
内部用户
数据中台
技术前瞻性推
动
外部用户
9. 目
数
字
世
界
新
动
01 关于网易数帆
02 为什么做逻辑数据湖
03 怎么做逻辑数据
04 未来规划
力
录
10. 安全
效率 质量 成本 • 需求交付速度慢!平均
需要一周时间。 • 平均每周10个数据质量
问题,数据使用方对数
据不信任! • 业务1有58.75%的表
30天内都没有访问,占
用了4.5P存储空间 • 权限体系管理混乱,流
程不清晰,平均申请需
要1天时间。
• 90%的问题都是被数据
使用方发现,投诉到
CTO! • 业务2有72%的表30天
内都没有访问,占据了
6P存储空间 • 权限缺少生命周期管理,
一旦授权,长期持有
• 找数据难,8万张表,
不知道有哪些数据!
• 报表加载速度慢,有
30%报表无法在5秒内
打开
• 取数效率低,IT部门平
均每周只能完成100次
取数需求,服务10+
• 平均每个Q有9个因为指 • 业务3有63.67%的表
30天内都没有访问,占
标口径不一致反馈的数
据了2.7P
据问题!
• 超过50%的问题都是数
据开发的BUG
• 业务4有50%的表30天
内都没有访问,占据了
10P存储空间
• 核心数据存在误删除风
险
• 权限缺少治理环节,申
请权限,但是不使用的
现象广泛存在,存在安
全隐患
11. 数据门户
数据应用
决策引擎
中国式报表
BI
CDP
(智能营销)
自助取数
标签工厂
数据文化分享中心
数据治理与服务
指标系统
模型设计中心
算法开发平台
数据质量中心
数据资产中心
数据安全中心
数据地图
数据服务
元数据中心
数据研发
数据集成中心
数据开发中心
数据测试中心
任务运维中心
流程协作中心
计算&存储
RDBMS
(MySQL、Oracle)
MPP
(Greenplum、Clickhouse)
Hadoop
HTAP
(TiDB,TBase)
KV&MQ
12. 200P
存储规模
6000
物理节点
20W
调度任务
2021年6月21日,全球顶级开源组织Apache 基
金会宣布,网易数帆开源大数据项目以全票通
过的表现,正式进入Apache 基金会孵化器。
• Spark 社区3.0 全球个人排名第二
• Impala Committer,Impala on iceberg 主要贡献
• Hadoop Committer 2人
• Kudu PMC 1人
• Submarine Committer 1人
• Kylin Committer 1人
• 《HBase原理与实践》
13. 算 管 用
DataOps DataFusion DataProduct
敏捷、质量 逻辑数据湖、流批一
体&湖仓一体 低门槛、场景化、
有限自助服务
数据研发
数据融合
数据应用
14. 网易数据生产力建设成果(数据中台部分)
效率 质量
• 需求交付速度从一周提
升到2.5天(模型复用
比从2.4提升到9.6) • 严选首次实现了S级大
促数据零延迟,任务完
成率达到了96.14%
• 数据查找效率提升
300%,数据地图在网
易内部有8000次PV • 因为代码变更导致的线
上问题下降了90%
• 95%的报表能够在5秒
内打开
• 自助取数,覆盖目标人
群90%,每周完成
5000+取数
• 考拉业务指标口径实现
统一,指标数量从824
缩减到423,覆盖13个
数据产品
成本
• 因为数据复用性提升,
人效节省9600工时
• 为业务节省了超过20%
的成本
安全
• 一体化权限申请流程,
制订数据资产安全等级,
不同等级,对应不同的
是审批流程,权限申请
缩短到2个小时内。
• 建立了自动的数据下线
的机制 • 核心数据双集群跨机房
备份,每日450T增量
数据
• 基于数据管控需求,提
升整体研发的价值产出 • 异常目录拦截8次
• 构建权限生命周期闭环
15. 网易数据生产力建设成果(数据产品部分)
系统采购订
单占比82%
总体库存(含
在途)下降
42.76%
库存周转天
数(含在途)
下降24.18%
16. 领先方
法论
产品完
整度高
兼容性
开源技术
体系
与云解耦,
跨云部署
17. l新架构能完全覆盖现有业务吗?
数仓架构是否太复杂、能不能满足现有的业务场景?
培训 + 行业经验积累 + 实施
l我们自己能运维吗?
运维团队好组建吗、复杂度有多少、是否足够标准透明?
运维培训 + 敏捷运维工具
l产品功能一定要上大数据?
产品功能和底层资源不应该强 绑定
18. 组件多
技术专
链路长
19. 上万个基于
Oracle的存储过
程,全部迁移到
Hive 成本太高
数据量本身并不
大,基于Oracle
运行稳定,没有
迁移的需要
原有系统,缺少
数据管理的能力,
也需要纳入中台
管理
让用户做选择,把选择权交给用户!
平台分裂,缺少
统一的管控、协
调
20. • DataOps:打造大数据场景的CI/CD Devops • 数据资产360:安全、价值、成本、质量、标准
• 数据门户:自助式搭建统一看数门户 • 数据安全:细粒度权限管控和一体化权限申请
• 先设计,后开发:业界首个面向中台的模型设计标准 • 数据沙箱:代码与数据解耦,透明发布
• 统一指标管理:消除指标口径二义性 • 逻辑数据湖:数据中台与基础计算、存储解耦
• 基线智能预警:海量任务运维和管理 • 流批一体&湖仓一体:实时数据中台
21. 目
数
字
世
界
新
动
01 关于网易数帆
02 为什么做逻辑数据湖
03 怎么做逻辑数据
04 未来规划
力
录
22. 统一数据开发
统一数据治理
统一数据源
统一查询分析
统一元数据
统一算、管、用
MPP
KV
Hadoop
RDBMS
HTAP
23. 统一字段类型转换
统一表达元组Catalog-Db-Table
二维字段描述
类型字典
物理转换
流表Meta构建
Schema-Mapping
逻辑转换
Hive
SQL
NewSql
NoSql
基础数据源
MQ
API
24. 项目账号
个人账号
角色账号
连接信息
配置文件
数据源应用
账号密码
LADP 代理Token
数据源Url解
析 联通性检验
Kerbores
账号管理
Namespace
租户隔离
唯一性校验
数据源登记
25.
26. 逻辑入湖
登记数据源
确定数据源
Owner
注册元数据
分配账号,建
立映射
数据探查 数据建模
数据开发 数据稽核
任务运维 数据服务
指标系统 数据资产
数据安全 数据地图
按需使用
物理入湖
申请数据源
权限
数据集成
统一元数据服务
27. • 跨平台同业务catalog保持同名
• 一份代码多处运行
• 基于catalog tag实现不同环境数据源关联
• 开发环境传入环境参数
• 执行引擎获取实际catalog 数据源
28. ——
任务提交上线 解析SQL
血缘生命周期 注入元数据中心
获取输入和输出表
调度系统获取血缘
目前已经支持 MySQL, Oracle, Greenplum,Vertica
用户可以自行调整
任务实际执行
29. • 动态血缘,基于实际的执行
计划分析,解析精准,但是
容易丢失业务信息。
• 静态血缘,基于实际执行的
SQL分析,信息完备,解析复
杂度高。
30. • 血缘变更来源,越底层覆盖
面越广,业务熟悉越弱,整
体还是要多维度。
数据地图
查询血缘信息
地图查询表血缘、字段血缘的上下游或任务信息
推送表变更消息给ES,用于后续检索
血缘
• 血缘影响分析,地图表展示、
报告产出、业务模型负责人
通知、下游影响分析
ES
信息推送
对外通知流程
血缘数据解析
Neo4j
存储血缘关系
包含表血缘/列血缘
血缘查询
元信息存储
持久化存储血缘关系
自己维护meta信息
血缘消息内部处理
血缘数据持久
化
平台
接收任务产
出信息的推
送
持久化存储任务信息
推送产出信息
血缘数据交互
Kafka
动态血缘的消息队列
合并之前的DDL与任务状态信息
Kafka
静态血缘的消息队列
合并之前的DDL与任务状态信息
所有任务推送静态血缘,即原生SQL
平台自助分析
平台
离线开发
实时开发
Hbase
存储血缘任务信息
血缘生命周期
管理
推送解析后的动态血缘,
包括表血缘与列血缘
任务开发
内部血缘插件
Hive与Spark任务
外部系统,例如业
务方ETL
数据传输
数据源Hook
31. • 需要明确关联规则,
Project、Filter影响
范围。
• 递归分析,缓存中
间表状态。
• Session模拟。
32. 目
数
字
世
界
新
动
01 关于网易数帆
02 为什么做逻辑数据湖
03 怎么做逻辑数据
04 未来规划
力
录
33. 1. 更多的数据源类型
2. 血缘覆盖度
3. 资产安全等级
4. 权限关联审核
产品细节打磨
1. 跨源查询
2. 跨源脱敏
统一代码
1. 统一存储
2. 高性能数仓
湖仓一体
34. 扫码即可关注