湖仓数据平台的技术核心和价值探索
如果无法正常显示,请先停止浏览器的去广告插件。
1. 湖仓数据平台的技术核心和价值探索
杨 磊
2. 企业数据平台场景
规模化数据生产
企业经营洞察
数据应用
敏捷数据分析
局部业务智能
(运营)
Business
Intelligence
科学探索分析
未知业务领域
Operational
Intelligence
预测
算法场景应用
(部署/API)
BI/报表
数仓建模
数据开发
数据加工处理
Semantic Layer
Metric Store
算法全生命周期
模型训练及管理
实时数据分析
数仓
数据中台
数据中台
数据源
业务数据库
文件等
MPP
(GP,CK,
GaussDB,DorisDB)
RDBMS
(Oracle,TeraData,
MySQL)
数据平台底座
风控
数据消费
数据分析
BI/报表
驾驶舱
推荐
Data
Intelligence
HTAP
(TiDB,xx)
机器学习平台
Hadoop
(CDH/CDP,TDH,
EMR …)
LakeHouse
(Databricks,MRS …)
升级 新增 新增
1、数仓迁移的场景(Oracle -> MPP/HTAP; Oracle ->
Hadoop;Oracle或TD/GP -> 湖仓); 联邦查询 4、实时数仓 或 实时数据分析 6、半/非结构化数据入湖、结构化 + AI分析
2、数据湖的升级场景(CDH/TDH -> 湖仓;增加实时能力,替代
impala + Kudu ; 点查或实时更新能力取代 HBase ) 5、Cloud云化场景(部分业务已上云)
3、MPP + Hadoop 混合场景升级到湖仓
3. 企业内数据平台的现状 (复杂、低效)
Data Warehousing
Data Engineering
Streaming Data Science & Machine Learning
Data Engineers Data Scientists
Siloed data teams decrease productivity
Data Analysts
Data Engineers
Disconnected systems and proprietary data formats make integration difficult
Amazon Redshift Teradata Hadoop Apache Airflow Apache Kafka Apache Spark Jupyter Amazon SageMaker
Azure Synapse Goole BigQuery Amazon EMR Apache Spark Apache Flink Amazon Kinesis Azure ML Studio MatLAB
Snowflake IBM Db2 Google Dataproc Cloudera Azure Stream Analytics Google Dataflow Domino Data Labs SAS
SAP Oracle Autonomous Tibco Spotfire Confluent TensorFlow PyTorch
Data Warehouse
Siloed stacks increase data architecture complexity
Analytics and Bi
Data
Science
Transform
Machine
Learning
Real-time Database
Extract
Data marts
Load
Data prep
Data Lake
Streaming Data Engine
Data Lake
Data warehouse
Structured data
Structured, semi-structured
and unstructured data
Streaming data sources
Structured, semi-structured
and unstructured data
4. 目标和挑战
数据特点
技术债务
时效性:T+1,T+10min,T+0 烟囱开发的积累
数据类型:半结构、非结构 临时方案债务(无统一服务…)
数据存量和数据增量大 历史原因导致多技术架构…
平台能力
扩展和演进
满足在线业务和分析SLA 过重的数仓模式
计算能力服务化、多负载 无ACID能力
统一存储、存算分离 无法应对业务对数据体系要求
5. 湖仓数据平台架构
BI/可视化
APP
AI/ML
数据可视化
数据故事
画像分析
自助式
AI增强分析
数据预警
描述型探索 关系型探索 预测型探索
算法模型 资产监控 资产服务
元数据管理
统一资产管理
需求管理
维度建模
指标标签
数据质量管理
AI主动治理
数据集成
数据开发
统一调度中心
数据建模
数据测试
数据运维
多租户及项目空间管理
数据服务
数据权限
数据质量验证
协
作
&
共
享
数据标准
数据入湖
流批计算
技术catalog
联邦查询
湖仓管理
SQL仓库
数据安全
统一存储引擎
统一工作台(运维&监控,IAM,数据源管理)
第三方
RDBMS
(Oracle,MySQL)
MPP
(GP,CK,GaussDB)
HTAP
(TiDB,xx)
Hadoop
(CDH/CDP,TDH,
EMR …)
LakeHouse
(Databricks,MRS …)
6. FastData实践:批流融合 & 全链路CDC
实时数仓 / 离线数仓
• 实时获取 + 订阅
APP
数据集市
• 湖仓实时 join 支持
• 秒级数据延迟
分析引擎
Trino
数据源
缓存层
可视化
Alluxio
计算引擎 计算引擎 计算引擎
Flink Flink Flink
业务库
APP应用
自助分析
ELT
CDC
开发/建模
CDC
汇总计算
统一存储引擎
物联网IoT
BI报表
ODS
DWD
DWS
7. FastData实践:事务ACID一致性
每次写入都会成一个snapshot,每个snapshot包含着一系列的文件列表
基于MVCC(Multi Version Concurrency Control)的机制,默认读取文件会从最新的的
版本,每次写入都会产生一个新的snapshot,读写相互不干扰
Metadata file: 元数据文件(存储某个时间点的表元数据)
Manifest list file: Manifest列表文件(文件列表)
Manifest file: Manifest文件(数据文件列表,以及关于每个数据文件的详细信息和统计信息 )
Data files: 数据文件(数据文件对象存储)
8. FastData实践:DataOps
沙箱管理
DataOps
Process
Sandbox
Management
Integration
Data Capture
关键能力
开发
编排调度
Development
Orchestration
Workflow
Data Transform
测试
Test
Data Modeling
部署/持续集成
Deployment
Continuous CI/CD
监控运维
Monitoring
Data Governance
Report/BI
Data Analytics
数据质量保证 数据监控 自动化测试和部署 工作流 自动化建模
自动补数服务 Schema 一致性 版本管控,CICD 支持workflow程序生成 自动Git部署数据模型
数据测试 Data Freshness 开发、测试协同 支持数据科学任务 自动化生成文档
SQL代码检查 Pipeline 故障检测 自动测试
数据透析和数据血缘
9. FastData实践:统一元数据管理
统一数据标准
数据架构
数据规范
数据安全
数据质量
生命周期管理
任务治理
统一数据源管理
租户隔离
唯一性校验
解析/检验
湖仓一体的底座核心能力:
帐号管理
数据源应用
配置信息
✓数据存储的类型和格式尽量统一,可以在分散在
不同的物理机房或节点,逻辑统一;
统一元数据
✓结构、半或非结构化数据的多模态一体化存储;
Schema-Mapping
流表MetaData构建
统一物理转换
租户及项目级别Catalog
✓统一各板块数据标准体系;
统一存储
统一存储类型(HDFS/对象)
存储格式(Parquet or ORC)
统一表索引引擎
多模态存储(结构/非结构)
基础数据源
RDBMS
(Oracle,MySQL,
GoldenDB,
OceanBase)
MPP
(GP,CK,
GaussDB,GBase)
HTAP
(TiDB,xx)
✓统一基础技术元数据;
Hadoop
(CDH/CDP,TDH,,
FI,EMR …)
KV & MQ
10. FastData实践:云原生架构
11. FastData湖仓数据平台
Data Source
DataSense(Metric Store)
DataFacts(DataOps)
ERP
Data Analytics
Data Management
ETL批处理
Sandboxes 开发 建模
编排 调度 测试
CI/CD
CDC流处理
CRM
数据运维
数据服务
Data Transformation
API
ODS
DWD
DWS
需求管理 业务建模
指标标签 算法模型
查询加速
任务管理
资产监控 行业知识库
数据资产服务
D-API
图形/视频/音频
文件
DLink(实时湖仓)
流批一体
联邦查询
数据探索 创作工坊
数据故事 画像分析
增强分析 预置算法
DataSense
(分析和可视化)
应用管理 服务管理
集成管理 服务监控
Dashboards
Embedded
Analytics
Augmented
Analytics
App
Frameworks
other
统一技术Catalog
三方 BI Tools 集成
统一存储引擎
IOT设备
Data Governance
DataSense(增强分析)
语义建模
业务资产地图
Data Delivery
元数据管理
数据资产
数据标准和质量
数据权限和安全
全链路数据血缘
AI主动治理
12. FastData价值实践
数据源
业
务
应
用
数据集成
数
据
服
务
结构化数据
数
据
开
发
半结构化数据
公共组件
业务线应用
IAM
认证/用户管理
数据 API
算
层
业务模型
数据科学
数据开发 数据模型
数据血缘 元数据管理
流/批处理
数据转换
流批一体
LDAP 认证
其他服务与应用
数据服务 实时作业 数据视图 API
作业/数据存取
数据质量 即席查询
SQL 编辑器 数据集 数据安全
DataFacts
数据入湖
...
机器学习
DataSense
JSON
XML
...
计
指标管理
统一元数据
监控运维告警
Catalog
Manager
DLink
联邦查询
多维聚合
物化视图
数据分析
Hive
统一调度服务
DolphinScheduler
Spark
Yarn
Hive Metastore
…
数据权限管理
Ranger
CDH
湖
数据源
统一管理
仓
存
储
Iceberg 表格式
实时/ACID/行级更新/主键/...
开放数据格式
Parquet/AVRO/ORC/...
层
Cloud OSS & HDFS
半/非结构化数据
CSV/JSON/XML
图片/音视频/文本
统一
服务网关
13. 想一想,
我该如何把这些
技术应用在工作实践中?
THANKS
技术交流群
社区公众号