从碎片到统一:如何用元数据湖解决多 Lakehouse 治理难题
如果无法正常显示,请先停止浏览器的去广告插件。
1. 史少锋
2.
3. 目录
4.
5. 图片来自:https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
6. •
•
•
支持事务,确保数据的一
致性;
支持 MVCC,实现快
照、时间旅行、回滚等操
作;
支持 schema evolution
和 partition evolution。
•
•
支持对象存储,为云上
使用而优化
元数据与数据一起保存
在云存储上,确保可靠
和持久
•
•
•
使用开放数据格式
(parquet、avro、orc
等)
提供开放 API,从各种
引擎平台接入
支持主流 SQL 引擎
•
•
支持结构化、半结构化
和非结构化数据的存储
和管理
既支持传统大数据
workload,也支持 AI /
ML
7. 深度集成 Spark 生
态,提供 ACID 事
务和批流一体能力
事务型数据湖平台,
支持COW和MOR两种
存储模式;行级
ACID,支持流式CDC
更新
开放表格式标准,支持
隐藏分区和高效元数据
过滤,多引擎兼容,适
合历史数据分析
流式数据湖(LSM树+列
存),深度使用 Flink 构
建实时数仓,支持高吞吐
写入和实时点查
可见,各有侧重,企业面临多种 Lakehouse 同时存在、同时管理、同时治理的问题
8.
9. 公有云
私有云 / 数据中心
ClickHou Hiv
se e
Spark
北美
Data
Pipelin
e
ES
RD
S
Kines Athe
is na
S Glu
3 e
■
■
■
Machin
e
Learni
ng
RedShift
Data
Share
Blob
Storage
Data
Lake
Data
Factor
y
Machin
e
Learni
ng
Analysis
Services Cosmos
DB
AD SQL
DataStor Pub/Su Cloud
e b ML
Bigtabl FileStor Spanne
e e r
GC Catal BigQue
S og ry
HBase Redis
Kafka Ozone
Hadoop Iceberg
中国
Impala
澳大利亚
Ku
du
Hudi
多平台的选择造成数据孤岛
多种数据形态带来的多数据存储方案、数据治理工具、计算架构的并存
同一产品在多种业务平台上数据不连通造成数据孤岛
■
■
数据地域保护造成数据孤岛
多地域的数据集中带来数据成本
、安全以及隐私保护问题
10. Technical & Business
Data
数据连接
Connect to the Data That
Matters Most.
3rd Party Data
数据发现
Automatically find, classify, and
map all of your data - everywhere.
数据主权
Automate end-to-end data
rights requests and reporting.
PII & PI Data
Credentials
元数据增强
Enrich technical metadata with business and
operational metadata for full visibility.
数据分类
Automatically classify more types
of data in more places.
IP Data
数据生命周期管理
Simplify and automate data lifecycle
management from collection to destruction.
11. 统一发现,权限管控,数据接入,访问审计,数据血缘,生命周期管理。。。
12.
13.
14. 目标:
Hive Metastore
Data lake /
Lakehouse
DW Catalog
数据仓库
Schema
Registry
实时消息
流
Fileset
文本、图片、视
频等
Model Registry
➢
➢
➢
数据统一视图
从元数据层面上达到 SSOT
统一访问和治理
AI 模型
Next-Gen Data Catalog is the Core in New Open Data Architecture
https://gravitino.apache.org/
15. Functionality layer
Interface layer
Unified Processing Unified Governing
Unified REST APIs Iceberg REST APIs
Metalake
Core with
object model
Connection Layer
Catalog Catalog Catalog Catalog
Schema Schema Schema Schema
Table Fileset Model Topic
Connection Connection Connection Connection
Metadata
Storage
16. Non-tabular data
Tabular data
Connectors
Create
Load
Alter
Gravitino Virtual
FileSystem
Drop
Create
Unified Tabular API
Alter
Drop
Unified Non-tabular API
Schema: {
name: string
comment: string
properties: map<string, string>
…
}
Transform
Table: {
name: string
columns: Colum[]
partitioning: Transform[]
distribution: Distribution
sortOrder: SortOrder[]
indexes: Index[]
….
}
Load
Python FileSystem
Schema: {
name: string
comment: string
properties: map<string, string>
…
}
Distribution
SortOrder
Index
Type
Fileset: {
name: string
storageLocation: string
type: Type
….
}
S3 HDFS
ADLS GCS
17. Unified Access Control API
18. • 为每类、每个数据资产提供全局唯一的坐标:
catalog.schema.asset,降低寻找、沟通成本
• 在所有地方使用统一数据坐标进行数据处理,打通各
个数据系统,降低出错概率
19. • 基于统一坐标,通过多引擎、多客户端采集,实现端到端统一血缘
模型
Fileset
报表
Gravitino 与 Openlineage 集成正在开发中:
https://github.com/apache/gravitino/issues/6617
20.
21. (WIP)
REST Catalog
JDBC data
sources
(即将发布)
22. • Gravitino 完整实现了 Iceberg REST Catalog
(IRC) API,确保与 Iceberg 规范的完全兼容,
使得不同计算引擎能够一致地访问和管理
Iceberg 表。
• 此外,用户依然可以通过 Gravitino REST API
访问和操作 Iceberg catalog,实现扩展功能,
包括权限、Tag、血缘 等。
23. Query
engines
Gravitino
Connector
Gravitino Unified
REST API
Gravitino
Server
Catalog
Iceberg
Client
Gravitino Iceberg
REST API
Namespace
Schema
Table
Table
HMS
Iceberg Tables
Gravitino REST API 与
IRC API 之间的相互操作:
• 共享相同的 metadata
destination.
• 使用一个 API 进行的表变更可
由另一个 API 加载.
• 可以通过 Gravitino REST API
获得扩展的功能,如 Tag、血
缘等
24. • 可插拔设计
• 底层可以使用多种存储进行切换
• 推荐使用 JDBC backend
• 增强的安全特性
• OAuth 认证
• Credential vending (支持 AWS, 阿里云,
Azure,GCP)
• Metrics 收集和存储
• 简单快捷地获取关于元数据使用的全面监
控统计信息
• Event listener 机制
• 用户可自定义对特定事件的处理逻辑
25. • 在企业升级到 Lakehouse 架构的过程中,通常会有多个集群,每个集群有独立的 HMS 服务。此外,因
为历史原因或业务需求,可能使用不同版本的 HMS。这种多版本共存的情况往往导致开发和运维团队
需要为每个版本编写不同的接口和适配逻辑,增加了系统的复杂性和维护成本。
• Gravitino 的统一接口设计,允许用户和应用程序使用相同的 API 访问不同版本的 Hive Metastore,大
大降低了升级和运维效率。
26.
27. ● Table numbers
● S3 storage
○ Iceberg: 8k active tables, 4k are for production.
○ Iceberg: 130PB+
○ Hive: 80k active tables, 57k are for production.
○ Hive: 650PB+
Gravitino Iceberg REST Catalog
Hive
Catalog
JDBC
Catalog
Hive Catalog
… Catalog
JDBC Catalog
From “Pluggable Catalogs” to
the “REST Catalog”
Iceberg Table
Iceberg Table
… Catalog
28. Pinterest IRC is running on Gravitino 0.7 with:
○ Customized event listener for table governance.
○ Customized request rewrite for table governance (WIP feature
apache/gravitino#6485).
● All engines (Spark, Trino, Flink) are onboarded on IRC now.
● Gravitino Cluster overview
○ Adhoc cluster: 5 nodes
○ Scheduled cluster: 5 nodes
● Usage volume
○ Daily Gravitino events is 300K
○ Single IRC instance load table QPS <1, duration p95 < 4s
○ Single IRC instance update table QPS <1, duration p95 < 2s
●
The smooth transition experience, thanks to open Iceberg Rest Catalog spec, solid
Gravitino implementation and great community support.
28
29. • 腾讯云 TBDS Metaservice (powered by Gravitino) 统一
了客户的元数据管理界面,纳管行内已有大数据集群和数
仓集群,形成统一元数据视图。
• 基于统一元数据视图,业务元数据服务可以对全行数据资
产进行有效的管理,在合规层面,也能真正落地统一权限
管控机制。
• 利用 TBDS Metaservice 的多引擎支持,TBDS 的湖仓一体
架构可以使得一套数据在多种场景下被不同的引擎进行不
同的处理,这即降低了数据传输复制的开销,同时也增强
了数据的安全性。
• 得益于 TBDS Metaservice 对 Iceberg 等数据湖表格式的良
好支持,以及对于旧 Hive 表的完全兼容。客户可以从容不
迫地逐步升级业务模式
详细介绍:https://shorturl.at/ly2Z1
需求:
30. •
在人工智能时代,数据成为了创新和决策的核心资源。Open Data Catalog 在这一背
景下扮演着至关重要的角色,它不仅是数据的管理者,更是 AI 发展的催化剂。
需求:
管理好 AI 资产
非结构化数据
海量数据“资产化”
资产地图与资产治理
支持好业务场景
对接机器学习框架
传统机器学习
大模型预训练/微调
实现 Data AI 一体化
流程打通、产品打通
DataOps/MLOps/LLMOps
31. 降本:
某业务纳管存量数据后大幅度降本
• 数十 PB 存量数据、大量 HDFS 路径,难以管理
• 纳管后识别出血缘
• 根据血缘推荐 TTL、TTV
• 冷备和清理无用数据实现降本
提效:
某业务部门的推荐工作流极大简化
升级后简化工作流
降本测算
详细介绍:https://shorturl.at/VoAww
统一元数据的使用
简化前:
• 数据流与训练流割裂
简化后:
• 大量使用文件,难管理、难分析
• 基于统一元数据打通流程
• 数据加工直接产生 Fileset
• 基于 Fileset 实现特征分析与训练
32. 1.
2.
Fileset mgmt API:
REST, Java, Python
2. HCFS support
3. Kerberos support
1.
v0.5
Access policy write
through
2. Cloud storage support
and credential vending
3. Auditing framework
1.
v0.7 (Oct 2024)
3.
4.
5.
6.
IRC upgrade to latest version
Model mgnt enhancement
Metadata access control
Data lineage support
JDBC sources support in
Spark/Flink/Trino
Performane enhancement
v0.9 (Q2 2025)
v0.6
1.
2.
3.
4.
5.
Python fsspec implementation
v0.8.1 (April 2025)
v0.8 (Jan 2025)
Centralized access control
Standalone Iceberg REST server 1. Model catalog
1. Bug fix and IP clearance
2. FUSE, CSI support
Flink Gravitino connector
2. Graduate from incubator
3.
Better
Security
control
Tag support
1.
2.
3.
4.
5.
Lance, Fluss support
UDF support
Table maintainance
Security enhancement
Table statistics
Future
33.
34. 大模型正在重新定义软件
Large Language Model Is Redefining The Software