从碎片到统一:如何用元数据湖解决多 Lakehouse 治理难题

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 史少锋
2.
3. 目录
4.
5. 图片来自:https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html
6. • • • 支持事务,确保数据的一 致性; 支持 MVCC,实现快 照、时间旅行、回滚等操 作; 支持 schema evolution 和 partition evolution。 • • 支持对象存储,为云上 使用而优化 元数据与数据一起保存 在云存储上,确保可靠 和持久 • • • 使用开放数据格式 (parquet、avro、orc 等) 提供开放 API,从各种 引擎平台接入 支持主流 SQL 引擎 • • 支持结构化、半结构化 和非结构化数据的存储 和管理 既支持传统大数据 workload,也支持 AI / ML
7. 深度集成 Spark 生 态,提供 ACID 事 务和批流一体能力 事务型数据湖平台, 支持COW和MOR两种 存储模式;行级 ACID,支持流式CDC 更新 开放表格式标准,支持 隐藏分区和高效元数据 过滤,多引擎兼容,适 合历史数据分析 流式数据湖(LSM树+列 存),深度使用 Flink 构 建实时数仓,支持高吞吐 写入和实时点查 可见,各有侧重,企业面临多种 Lakehouse 同时存在、同时管理、同时治理的问题
8.
9. 公有云 私有云 / 数据中心 ClickHou Hiv se e Spark 北美 Data Pipelin e ES RD S Kines Athe is na S Glu 3 e ■ ■ ■ Machin e Learni ng RedShift Data Share Blob Storage Data Lake Data Factor y Machin e Learni ng Analysis Services Cosmos DB AD SQL DataStor Pub/Su Cloud e b ML Bigtabl FileStor Spanne e e r GC Catal BigQue S og ry HBase Redis Kafka Ozone Hadoop Iceberg 中国 Impala 澳大利亚 Ku du Hudi 多平台的选择造成数据孤岛 多种数据形态带来的多数据存储方案、数据治理工具、计算架构的并存 同一产品在多种业务平台上数据不连通造成数据孤岛 ■ ■ 数据地域保护造成数据孤岛 多地域的数据集中带来数据成本 、安全以及隐私保护问题
10. Technical & Business Data 数据连接 Connect to the Data That Matters Most. 3rd Party Data 数据发现 Automatically find, classify, and map all of your data - everywhere. 数据主权 Automate end-to-end data rights requests and reporting. PII & PI Data Credentials 元数据增强 Enrich technical metadata with business and operational metadata for full visibility. 数据分类 Automatically classify more types of data in more places. IP Data 数据生命周期管理 Simplify and automate data lifecycle management from collection to destruction.
11. 统一发现,权限管控,数据接入,访问审计,数据血缘,生命周期管理。。。
12.
13.
14. 目标: Hive Metastore Data lake / Lakehouse DW Catalog 数据仓库 Schema Registry 实时消息 流 Fileset 文本、图片、视 频等 Model Registry ➢ ➢ ➢ 数据统一视图 从元数据层面上达到 SSOT 统一访问和治理 AI 模型 Next-Gen Data Catalog is the Core in New Open Data Architecture https://gravitino.apache.org/
15. Functionality layer Interface layer Unified Processing Unified Governing Unified REST APIs Iceberg REST APIs Metalake Core with object model Connection Layer Catalog Catalog Catalog Catalog Schema Schema Schema Schema Table Fileset Model Topic Connection Connection Connection Connection Metadata Storage
16. Non-tabular data Tabular data Connectors Create Load Alter Gravitino Virtual FileSystem Drop Create Unified Tabular API Alter Drop Unified Non-tabular API Schema: { name: string comment: string properties: map<string, string> … } Transform Table: { name: string columns: Colum[] partitioning: Transform[] distribution: Distribution sortOrder: SortOrder[] indexes: Index[] …. } Load Python FileSystem Schema: { name: string comment: string properties: map<string, string> … } Distribution SortOrder Index Type Fileset: { name: string storageLocation: string type: Type …. } S3 HDFS ADLS GCS
17. Unified Access Control API
18. • 为每类、每个数据资产提供全局唯一的坐标: catalog.schema.asset,降低寻找、沟通成本 • 在所有地方使用统一数据坐标进行数据处理,打通各 个数据系统,降低出错概率
19. • 基于统一坐标,通过多引擎、多客户端采集,实现端到端统一血缘 模型 Fileset 报表 Gravitino 与 Openlineage 集成正在开发中: https://github.com/apache/gravitino/issues/6617
20.
21. (WIP) REST Catalog JDBC data sources (即将发布)
22. • Gravitino 完整实现了 Iceberg REST Catalog (IRC) API,确保与 Iceberg 规范的完全兼容, 使得不同计算引擎能够一致地访问和管理 Iceberg 表。 • 此外,用户依然可以通过 Gravitino REST API 访问和操作 Iceberg catalog,实现扩展功能, 包括权限、Tag、血缘 等。
23. Query engines Gravitino Connector Gravitino Unified REST API Gravitino Server Catalog Iceberg Client Gravitino Iceberg REST API Namespace Schema Table Table HMS Iceberg Tables Gravitino REST API 与 IRC API 之间的相互操作: • 共享相同的 metadata destination. • 使用一个 API 进行的表变更可 由另一个 API 加载. • 可以通过 Gravitino REST API 获得扩展的功能,如 Tag、血 缘等
24. • 可插拔设计 • 底层可以使用多种存储进行切换 • 推荐使用 JDBC backend • 增强的安全特性 • OAuth 认证 • Credential vending (支持 AWS, 阿里云, Azure,GCP) • Metrics 收集和存储 • 简单快捷地获取关于元数据使用的全面监 控统计信息 • Event listener 机制 • 用户可自定义对特定事件的处理逻辑
25. • 在企业升级到 Lakehouse 架构的过程中,通常会有多个集群,每个集群有独立的 HMS 服务。此外,因 为历史原因或业务需求,可能使用不同版本的 HMS。这种多版本共存的情况往往导致开发和运维团队 需要为每个版本编写不同的接口和适配逻辑,增加了系统的复杂性和维护成本。 • Gravitino 的统一接口设计,允许用户和应用程序使用相同的 API 访问不同版本的 Hive Metastore,大 大降低了升级和运维效率。
26.
27. ● Table numbers ● S3 storage ○ Iceberg: 8k active tables, 4k are for production. ○ Iceberg: 130PB+ ○ Hive: 80k active tables, 57k are for production. ○ Hive: 650PB+ Gravitino Iceberg REST Catalog Hive Catalog JDBC Catalog Hive Catalog … Catalog JDBC Catalog From “Pluggable Catalogs” to the “REST Catalog” Iceberg Table Iceberg Table … Catalog
28. Pinterest IRC is running on Gravitino 0.7 with: ○ Customized event listener for table governance. ○ Customized request rewrite for table governance (WIP feature apache/gravitino#6485). ● All engines (Spark, Trino, Flink) are onboarded on IRC now. ● Gravitino Cluster overview ○ Adhoc cluster: 5 nodes ○ Scheduled cluster: 5 nodes ● Usage volume ○ Daily Gravitino events is 300K ○ Single IRC instance load table QPS <1, duration p95 < 4s ○ Single IRC instance update table QPS <1, duration p95 < 2s ● The smooth transition experience, thanks to open Iceberg Rest Catalog spec, solid Gravitino implementation and great community support. 28
29. • 腾讯云 TBDS Metaservice (powered by Gravitino) 统一 了客户的元数据管理界面,纳管行内已有大数据集群和数 仓集群,形成统一元数据视图。 • 基于统一元数据视图,业务元数据服务可以对全行数据资 产进行有效的管理,在合规层面,也能真正落地统一权限 管控机制。 • 利用 TBDS Metaservice 的多引擎支持,TBDS 的湖仓一体 架构可以使得一套数据在多种场景下被不同的引擎进行不 同的处理,这即降低了数据传输复制的开销,同时也增强 了数据的安全性。 • 得益于 TBDS Metaservice 对 Iceberg 等数据湖表格式的良 好支持,以及对于旧 Hive 表的完全兼容。客户可以从容不 迫地逐步升级业务模式 详细介绍:https://shorturl.at/ly2Z1 需求:
30. • 在人工智能时代,数据成为了创新和决策的核心资源。Open Data Catalog 在这一背 景下扮演着至关重要的角色,它不仅是数据的管理者,更是 AI 发展的催化剂。 需求: 管理好 AI 资产 非结构化数据 海量数据“资产化” 资产地图与资产治理 支持好业务场景 对接机器学习框架 传统机器学习 大模型预训练/微调 实现 Data AI 一体化 流程打通、产品打通 DataOps/MLOps/LLMOps
31. 降本: 某业务纳管存量数据后大幅度降本 • 数十 PB 存量数据、大量 HDFS 路径,难以管理 • 纳管后识别出血缘 • 根据血缘推荐 TTL、TTV • 冷备和清理无用数据实现降本 提效: 某业务部门的推荐工作流极大简化 升级后简化工作流 降本测算 详细介绍:https://shorturl.at/VoAww 统一元数据的使用 简化前: • 数据流与训练流割裂 简化后: • 大量使用文件,难管理、难分析 • 基于统一元数据打通流程 • 数据加工直接产生 Fileset • 基于 Fileset 实现特征分析与训练
32. 1. 2. Fileset mgmt API: REST, Java, Python 2. HCFS support 3. Kerberos support 1. v0.5 Access policy write through 2. Cloud storage support and credential vending 3. Auditing framework 1. v0.7 (Oct 2024) 3. 4. 5. 6. IRC upgrade to latest version Model mgnt enhancement Metadata access control Data lineage support JDBC sources support in Spark/Flink/Trino Performane enhancement v0.9 (Q2 2025) v0.6 1. 2. 3. 4. 5. Python fsspec implementation v0.8.1 (April 2025) v0.8 (Jan 2025) Centralized access control Standalone Iceberg REST server 1. Model catalog 1. Bug fix and IP clearance 2. FUSE, CSI support Flink Gravitino connector 2. Graduate from incubator 3. Better Security control Tag support 1. 2. 3. 4. 5. Lance, Fluss support UDF support Table maintainance Security enhancement Table statistics Future
33.
34. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:48
浙ICP备14020137号-1 $Map of visitor$