Fluss 湖流一体:Lakehouse 架构实时化演进
如果无法正常显示,请先停止浏览器的去广告插件。
1. 罗宇侠
2. 目录
3.
4.
5. 多模态数据
结构化数据
文本
Unify Catalog
图像
多模态数据统一存储,满足 AI
模型训练对多模态数据的要求
统一元数据实现数据血缘追
踪,权限管理,确保 AI 模型
调用的数据质量和可追溯
Open Datalake format
数据湖廉价存储特性允许企业
积累海量数据,为 AI 提供海
量训练语料
6. 实时更新大语言模型的知识库 1 2 实时感知用户的上下文
实时数据支持模型的在线学习 3 4 模型根据用户实时反馈进行调整
7.
8.
9. Compaction Service
10. Table
通过分区列
Partition 1
Partition 2
Partition 3
通过分桶列
Bucket 1
Bucket 2
Bucket 3
11. Fluss Cluster
1. request table
Lake Tiering
Service
4. commit lake snapshot
Tiering Worker
2. assign bucket
Tiering Coordinator
2. assign bucket
Tiering Worker
2. assign bucket
Tiering Worker
3. commit to lake
Tiering Committer
12. Fluss Cluster
1. request table
Lake Tiering
Service
4. commit lake snapshot
Tiering Worker
2. assign bucket
Tiering Coordinator
2. assign bucket
Tiering Worker
2. assign bucket
Tiering Worker
3. commit to lake
Tiering Committer
13. Fluss Cluster
Lake Tiering Service 1
Lake Tiering Service 2
Tiering Worker
无状态服务,秒级别扩容
Tiering Coordinator
Lake Tiering Service 3
Tiering Worker
Tiering Worker
……
14.
15. Fluss
{
}
2. commit lake snapshot
Lake Tiering Service
……
Tiering Committer
1. commit to lake
“snapshotId”: 2
“bucket1” : offset1
“bucket2”: offset2
16. {
}
“snapshotId”: 2
“bucket1” : offset1
“bucket2”: offset2
2. 从 log offset1 开始订阅 bucket1 的数
据
1. snapshot 2 读 bucket1的数据
3. sort merge
17. partition=20250411
bucket1
bucket2
bucket2
18.
19.
20.
21. Kafka
实时数据全部保存在本地磁盘中
Fluss 本地磁盘仅仅需要保存几小时热数据
流存储成本 降低 10 倍
6 Hours
3 Days
离线数据保存在数据湖中
历史数据都保存在数据湖中
22.
23.
24.
25. Fluss
data
26.
27. Confluent Tableflow Fluss 湖流一体
• 数据需要保存两份 • 数据只需要保存一份
• 没有增强 LakeHouse • 增强 LakeHouse 新鲜度到秒级
• 数据湖表难以与 Kafka Topic 对齐
VS
• 数据湖表与 Fluss 表一一对齐
28.
29. Step1: 启动 Tiering Service
Step2: 创建湖表
30. Step3: Flink 读 Fluss 湖表
Step3.1:Union Read 读全量数据
Step3.2:Lake Read 只读湖上数据
31. Step4: StarRocks 分析湖上数据
32.
33. Union Read 能力对接 StarRocks
& Spark 等查询引擎
湖生态对接 Iceberg & Hudi
Union Read 支持 deletion vector,
大幅提升主键表的性能
34.
35.
36. 大模型正在重新定义软件
Large Language Model Is Redefining The Software