Fluss 湖流一体：Lakehouse 架构实时化演进

1. 罗宇侠

2. 目录

3.

4.

5. 多模态数据结构化数据文本 Unify Catalog 图像多模态数据统一存储，满足 AI 模型训练对多模态数据的要求统一元数据实现数据血缘追踪，权限管理，确保 AI 模型调用的数据质量和可追溯 Open Datalake format 数据湖廉价存储特性允许企业积累海量数据，为 AI 提供海量训练语料

6. 实时更新大语言模型的知识库 1 2 实时感知用户的上下文实时数据支持模型的在线学习 3 4 模型根据用户实时反馈进行调整

7.

8.

9. Compaction Service

10. Table 通过分区列 Partition 1 Partition 2 Partition 3 通过分桶列 Bucket 1 Bucket 2 Bucket 3

11. Fluss Cluster 1. request table Lake Tiering Service 4. commit lake snapshot Tiering Worker 2. assign bucket Tiering Coordinator 2. assign bucket Tiering Worker 2. assign bucket Tiering Worker 3. commit to lake Tiering Committer

12. Fluss Cluster 1. request table Lake Tiering Service 4. commit lake snapshot Tiering Worker 2. assign bucket Tiering Coordinator 2. assign bucket Tiering Worker 2. assign bucket Tiering Worker 3. commit to lake Tiering Committer

13. Fluss Cluster Lake Tiering Service 1 Lake Tiering Service 2 Tiering Worker 无状态服务，秒级别扩容 Tiering Coordinator Lake Tiering Service 3 Tiering Worker Tiering Worker ……

14.

15. Fluss { } 2. commit lake snapshot Lake Tiering Service …… Tiering Committer 1. commit to lake “snapshotId”: 2 “bucket1” : offset1 “bucket2”: offset2

16. { } “snapshotId”: 2 “bucket1” : offset1 “bucket2”: offset2 2. 从 log offset1 开始订阅 bucket1 的数据 1. snapshot 2 读 bucket1的数据 3. sort merge

17. partition=20250411 bucket1 bucket2 bucket2

18.

19.

20.

21. Kafka 实时数据全部保存在本地磁盘中 Fluss 本地磁盘仅仅需要保存几小时热数据流存储成本降低 10 倍 6 Hours 3 Days 离线数据保存在数据湖中历史数据都保存在数据湖中

22.

23.

24.

25. Fluss data

26.

27. Confluent Tableflow Fluss 湖流一体 • 数据需要保存两份 • 数据只需要保存一份 • 没有增强 LakeHouse • 增强 LakeHouse 新鲜度到秒级 • 数据湖表难以与 Kafka Topic 对齐 VS • 数据湖表与 Fluss 表一一对齐

28.

29. Step1: 启动 Tiering Service Step2: 创建湖表

30. Step3: Flink 读 Fluss 湖表 Step3.1：Union Read 读全量数据 Step3.2：Lake Read 只读湖上数据

31. Step4: StarRocks 分析湖上数据

32.

33. Union Read 能力对接 StarRocks & Spark 等查询引擎湖生态对接 Iceberg & Hudi Union Read 支持 deletion vector，大幅提升主键表的性能

34.

35.

36. 大模型正在重新定义软件 Large Language Model Is Redefining The Software