从碎片到统一：如何用元数据湖解决多 Lakehouse 治理难题

如果无法正常显示，请先停止浏览器的去广告插件。

1. 史少锋

3. 目录

5. 图片来自：https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

6. • • • 支持事务，确保数据的一致性；支持 MVCC，实现快照、时间旅行、回滚等操作；支持 schema evolution 和 partition evolution。 • • 支持对象存储，为云上使用而优化元数据与数据一起保存在云存储上，确保可靠和持久 • • • 使用开放数据格式（parquet、avro、orc 等）提供开放 API，从各种引擎平台接入支持主流 SQL 引擎 • • 支持结构化、半结构化和非结构化数据的存储和管理既支持传统大数据 workload，也支持 AI / ML

7. 深度集成 Spark 生态，提供 ACID 事务和批流一体能力事务型数据湖平台，支持COW和MOR两种存储模式；行级 ACID，支持流式CDC 更新开放表格式标准，支持隐藏分区和高效元数据过滤，多引擎兼容，适合历史数据分析流式数据湖（LSM树+列存），深度使用 Flink 构建实时数仓，支持高吞吐写入和实时点查可见，各有侧重，企业面临多种 Lakehouse 同时存在、同时管理、同时治理的问题

9. 公有云私有云 / 数据中心 ClickHou Hiv se e Spark 北美 Data Pipelin e ES RD S Kines Athe is na S Glu 3 e ■ ■ ■ Machin e Learni ng RedShift Data Share Blob Storage Data Lake Data Factor y Machin e Learni ng Analysis Services Cosmos DB AD SQL DataStor Pub/Su Cloud e b ML Bigtabl FileStor Spanne e e r GC Catal BigQue S og ry HBase Redis Kafka Ozone Hadoop Iceberg 中国 Impala 澳大利亚 Ku du Hudi 多平台的选择造成数据孤岛多种数据形态带来的多数据存储方案、数据治理工具、计算架构的并存同一产品在多种业务平台上数据不连通造成数据孤岛 ■ ■ 数据地域保护造成数据孤岛多地域的数据集中带来数据成本、安全以及隐私保护问题

10. Technical & Business Data 数据连接 Connect to the Data That Matters Most. 3rd Party Data 数据发现 Automatically find, classify, and map all of your data - everywhere. 数据主权 Automate end-to-end data rights requests and reporting. PII & PI Data Credentials 元数据增强 Enrich technical metadata with business and operational metadata for full visibility. 数据分类 Automatically classify more types of data in more places. IP Data 数据生命周期管理 Simplify and automate data lifecycle management from collection to destruction.

11. 统一发现，权限管控，数据接入，访问审计，数据血缘，生命周期管理。。。

12.

13.

14. 目标： Hive Metastore Data lake / Lakehouse DW Catalog 数据仓库 Schema Registry 实时消息流 Fileset 文本、图片、视频等 Model Registry ➢ ➢ ➢ 数据统一视图从元数据层面上达到 SSOT 统一访问和治理 AI 模型 Next-Gen Data Catalog is the Core in New Open Data Architecture https://gravitino.apache.org/

15. Functionality layer Interface layer Unified Processing Unified Governing Unified REST APIs Iceberg REST APIs Metalake Core with object model Connection Layer Catalog Catalog Catalog Catalog Schema Schema Schema Schema Table Fileset Model Topic Connection Connection Connection Connection Metadata Storage

16. Non-tabular data Tabular data Connectors Create Load Alter Gravitino Virtual FileSystem Drop Create Unified Tabular API Alter Drop Unified Non-tabular API Schema: { name: string comment: string properties: map<string, string> … } Transform Table: { name: string columns: Colum[] partitioning: Transform[] distribution: Distribution sortOrder: SortOrder[] indexes: Index[] …. } Load Python FileSystem Schema: { name: string comment: string properties: map<string, string> … } Distribution SortOrder Index Type Fileset: { name: string storageLocation: string type: Type …. } S3 HDFS ADLS GCS

17. Unified Access Control API

18. • 为每类、每个数据资产提供全局唯一的坐标： catalog.schema.asset，降低寻找、沟通成本 • 在所有地方使用统一数据坐标进行数据处理，打通各个数据系统，降低出错概率

19. • 基于统一坐标，通过多引擎、多客户端采集，实现端到端统一血缘模型 Fileset 报表 Gravitino 与 Openlineage 集成正在开发中： https://github.com/apache/gravitino/issues/6617

20.

21. (WIP) REST Catalog JDBC data sources (即将发布)

22. • Gravitino 完整实现了 Iceberg REST Catalog (IRC) API，确保与 Iceberg 规范的完全兼容，使得不同计算引擎能够一致地访问和管理 Iceberg 表。 • 此外，用户依然可以通过 Gravitino REST API 访问和操作 Iceberg catalog，实现扩展功能，包括权限、Tag、血缘等。

23. Query engines Gravitino Connector Gravitino Unified REST API Gravitino Server Catalog Iceberg Client Gravitino Iceberg REST API Namespace Schema Table Table HMS Iceberg Tables Gravitino REST API 与 IRC API 之间的相互操作： • 共享相同的 metadata destination. • 使用一个 API 进行的表变更可由另一个 API 加载. • 可以通过 Gravitino REST API 获得扩展的功能，如 Tag、血缘等

24. • 可插拔设计 • 底层可以使用多种存储进行切换 • 推荐使用 JDBC backend • 增强的安全特性 • OAuth 认证 • Credential vending (支持 AWS, 阿里云， Azure，GCP） • Metrics 收集和存储 • 简单快捷地获取关于元数据使用的全面监控统计信息 • Event listener 机制 • 用户可自定义对特定事件的处理逻辑

25. • 在企业升级到 Lakehouse 架构的过程中，通常会有多个集群，每个集群有独立的 HMS 服务。此外，因为历史原因或业务需求，可能使用不同版本的 HMS。这种多版本共存的情况往往导致开发和运维团队需要为每个版本编写不同的接口和适配逻辑，增加了系统的复杂性和维护成本。 • Gravitino 的统一接口设计，允许用户和应用程序使用相同的 API 访问不同版本的 Hive Metastore，大大降低了升级和运维效率。

26.

27. ● Table numbers ● S3 storage ○ Iceberg: 8k active tables, 4k are for production. ○ Iceberg: 130PB+ ○ Hive: 80k active tables, 57k are for production. ○ Hive: 650PB+ Gravitino Iceberg REST Catalog Hive Catalog JDBC Catalog Hive Catalog … Catalog JDBC Catalog From “Pluggable Catalogs” to the “REST Catalog” Iceberg Table Iceberg Table … Catalog

28. Pinterest IRC is running on Gravitino 0.7 with: ○ Customized event listener for table governance. ○ Customized request rewrite for table governance (WIP feature apache/gravitino#6485). ● All engines (Spark, Trino, Flink) are onboarded on IRC now. ● Gravitino Cluster overview ○ Adhoc cluster: 5 nodes ○ Scheduled cluster: 5 nodes ● Usage volume ○ Daily Gravitino events is 300K ○ Single IRC instance load table QPS <1, duration p95 < 4s ○ Single IRC instance update table QPS <1, duration p95 < 2s ● The smooth transition experience, thanks to open Iceberg Rest Catalog spec, solid Gravitino implementation and great community support. 28

29. • 腾讯云 TBDS Metaservice （powered by Gravitino）统一了客户的元数据管理界面，纳管行内已有大数据集群和数仓集群，形成统一元数据视图。 • 基于统一元数据视图，业务元数据服务可以对全行数据资产进行有效的管理，在合规层面，也能真正落地统一权限管控机制。 • 利用 TBDS Metaservice 的多引擎支持，TBDS 的湖仓一体架构可以使得一套数据在多种场景下被不同的引擎进行不同的处理，这即降低了数据传输复制的开销，同时也增强了数据的安全性。 • 得益于 TBDS Metaservice 对 Iceberg 等数据湖表格式的良好支持，以及对于旧 Hive 表的完全兼容。客户可以从容不迫地逐步升级业务模式详细介绍：https://shorturl.at/ly2Z1 需求：

30. • 在人工智能时代，数据成为了创新和决策的核心资源。Open Data Catalog 在这一背景下扮演着至关重要的角色，它不仅是数据的管理者，更是 AI 发展的催化剂。需求：管理好 AI 资产非结构化数据海量数据“资产化” 资产地图与资产治理支持好业务场景对接机器学习框架传统机器学习大模型预训练/微调实现 Data AI 一体化流程打通、产品打通 DataOps/MLOps/LLMOps

31. 降本：某业务纳管存量数据后大幅度降本 • 数十 PB 存量数据、大量 HDFS 路径，难以管理 • 纳管后识别出血缘 • 根据血缘推荐 TTL、TTV • 冷备和清理无用数据实现降本提效：某业务部门的推荐工作流极大简化升级后简化工作流降本测算详细介绍：https://shorturl.at/VoAww 统一元数据的使用简化前： • 数据流与训练流割裂简化后： • 大量使用文件，难管理、难分析 • 基于统一元数据打通流程 • 数据加工直接产生 Fileset • 基于 Fileset 实现特征分析与训练

32. 1. 2. Fileset mgmt API: REST, Java, Python 2. HCFS support 3. Kerberos support 1. v0.5 Access policy write through 2. Cloud storage support and credential vending 3. Auditing framework 1. v0.7 （Oct 2024) 3. 4. 5. 6. IRC upgrade to latest version Model mgnt enhancement Metadata access control Data lineage support JDBC sources support in Spark/Flink/Trino Performane enhancement v0.9 (Q2 2025) v0.6 1. 2. 3. 4. 5. Python fsspec implementation v0.8.1 （April 2025) v0.8 （Jan 2025) Centralized access control Standalone Iceberg REST server 1. Model catalog 1. Bug fix and IP clearance 2. FUSE, CSI support Flink Gravitino connector 2. Graduate from incubator 3. Better Security control Tag support 1. 2. 3. 4. 5. Lance, Fluss support UDF support Table maintainance Security enhancement Table statistics Future

33.

34. 大模型正在重新定义软件 Large Language Model Is Redefining The Software