Fluss 湖流一体:Lakehouse 架构实时化演进

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 罗宇侠
2. 目录
3.
4.
5. 多模态数据 结构化数据 文本 Unify Catalog 图像 多模态数据统一存储,满足 AI 模型训练对多模态数据的要求 统一元数据实现数据血缘追 踪,权限管理,确保 AI 模型 调用的数据质量和可追溯 Open Datalake format 数据湖廉价存储特性允许企业 积累海量数据,为 AI 提供海 量训练语料
6. 实时更新大语言模型的知识库 1 2 实时感知用户的上下文 实时数据支持模型的在线学习 3 4 模型根据用户实时反馈进行调整
7.
8.
9. Compaction Service
10. Table 通过分区列 Partition 1 Partition 2 Partition 3 通过分桶列 Bucket 1 Bucket 2 Bucket 3
11. Fluss Cluster 1. request table Lake Tiering Service 4. commit lake snapshot Tiering Worker 2. assign bucket Tiering Coordinator 2. assign bucket Tiering Worker 2. assign bucket Tiering Worker 3. commit to lake Tiering Committer
12. Fluss Cluster 1. request table Lake Tiering Service 4. commit lake snapshot Tiering Worker 2. assign bucket Tiering Coordinator 2. assign bucket Tiering Worker 2. assign bucket Tiering Worker 3. commit to lake Tiering Committer
13. Fluss Cluster Lake Tiering Service 1 Lake Tiering Service 2 Tiering Worker 无状态服务,秒级别扩容 Tiering Coordinator Lake Tiering Service 3 Tiering Worker Tiering Worker ……
14.
15. Fluss { } 2. commit lake snapshot Lake Tiering Service …… Tiering Committer 1. commit to lake “snapshotId”: 2 “bucket1” : offset1 “bucket2”: offset2
16. { } “snapshotId”: 2 “bucket1” : offset1 “bucket2”: offset2 2. 从 log offset1 开始订阅 bucket1 的数 据 1. snapshot 2 读 bucket1的数据 3. sort merge
17. partition=20250411 bucket1 bucket2 bucket2
18.
19.
20.
21. Kafka 实时数据全部保存在本地磁盘中 Fluss 本地磁盘仅仅需要保存几小时热数据 流存储成本 降低 10 倍 6 Hours 3 Days 离线数据保存在数据湖中 历史数据都保存在数据湖中
22.
23.
24.
25. Fluss data
26.
27. Confluent Tableflow Fluss 湖流一体 • 数据需要保存两份 • 数据只需要保存一份 • 没有增强 LakeHouse • 增强 LakeHouse 新鲜度到秒级 • 数据湖表难以与 Kafka Topic 对齐 VS • 数据湖表与 Fluss 表一一对齐
28.
29. Step1: 启动 Tiering Service Step2: 创建湖表
30. Step3: Flink 读 Fluss 湖表 Step3.1:Union Read 读全量数据 Step3.2:Lake Read 只读湖上数据
31. Step4: StarRocks 分析湖上数据
32.
33. Union Read 能力对接 StarRocks & Spark 等查询引擎 湖生态对接 Iceberg & Hudi Union Read 支持 deletion vector, 大幅提升主键表的性能
34.
35.
36. 大模型正在重新定义软件 Large Language Model Is Redefining The Software

Accueil - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-29 03:21
浙ICP备14020137号-1 $Carte des visiteurs$