Daft:面向AI的多模数据湖计算引擎
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:琚克俭
2. 01 AI带来的数据湖变革
02 Daft多模计算定位
03 Daft核心场景
04 Daft+Lance数据湖新范式
05 Daft大规模数据处理实践
06 未来展望
3.
4. 01
AI带来的数据湖变革
5. ➢ ChatBI / Agent/ 智驾/基模/具身/...
➢ Database -> Dataset
➢ Table/View -> Volume/Model/Function
➢
➢
➢
➢
➢
6. 大模型发展迅速,数据处理领域快速从纯文本场景扩展到了文本、图片以及音视频等联合的多模态场景,
多模态数据管理相比原有的仅文本处理也有了新的技术挑战。
7.
8. 02
Daft多模计算定位
9. 单机与分布式统一
多模与结构化统一
CPU与GPU异构统一
DaftFrame与SQL统一
预处理+推理+训练统一
10. ✓
✓
✓
✓
框架概览
11. 03
Daft核心场景
12.
13. CPU+GPU异构
基于Ray的流式计算
少参数并发控制
Iterator数据输出
14. 图文混排示例
15. ⚫
⚫
⚫
⚫
⚫
⚫
⚫
自定义binary文件
⚫
⚫
文本+图片+音视频
Embedding/Tensor
Arrow扩展类型
16. LLM推理
17. 无限扩展预处理集群,
打破gpu训练机型的限制
Daft作为内存缓冲器,预
处理数据从S3/PFS上预加
载到内存中
Train Resume. 练中断按照
Daft保存的Step状态处恢复
Rust减少GIL锁问题
18. 04
Daft+Lance数据湖新范式
19. 大小列统一存储 Zero-Cost
Data Evolution
高性能随机点查 透明编码
20. ?图片/视频是存S3文件还是存lance列
✓
✓
Url延迟Download
文件与结构化列统一存储
21. 多模对象的KV方式访问
✓
✓
✓
22. ✓
✓
✓
✓
AI领域的湖计算和湖存储
23. 05
Daft大规模数据处理实践
24. 客户原先架构
车端数据采集
数据预处理 + 推理标注
数据挖掘 & 管理
模型训练
训练平台
TOS
关键帧筛选
Argo 调度平台
数据集新建
车机端数据
终端采集数据
车机端数据
Data 解包
Data 清洗
持久化
Data
自动化标注
TOS
ç
清洗后的数据
sensor.tar
预热数据集
CPU 节点池
GPU 推理节点池
数据 Dataloader
sensor.mdb
手工管理
label.Imdb
label.tar
vePFS
数据集合并
标签增加
sensor.Imdb
资源隔离
车机端数据
数据 Shuffle
数据集预热
文本提取
识别训练
label.Imdb
数据集处理血缘(CSV)
index.json
index.json
CPU 节点池
规控训练
CPU 节点池
GPU 训练节点池
火山引擎新方案架构
车端数据采集
数据预处理 + 推理标注
TOS
车机端数据
终端采集数据
车机端数据
Data 解包
Data 清洗
Data
自动化标注
AI 数据湖 LAS 平台 训练平台
vePFS
数据集新建
数据集预热
文本提取
数据集合并
sensor col
label.tar
sensor col
AI 数据湖管理
label col
CPU 节点池
GPU 推理节点池
预热数据集
Lance
标签增加
混合资源池
车机端数据
ç
清洗后的数据
sensor.tar
模型训练
关键帧筛选
TOS
Shared Mem
数据挖掘 & 管理
数据集入湖
数据集管理
CPU 节点池
数据探查
Lance Shuffle
Daft on Ray
Remote Dataloader
识别训练
label col
数据血缘
CPU 节点池
数据分层
规控训练
GPU 训练节点池
25. 场景痛点
升级收益
✓
升级
收益
✓
✓
✓
26. 客户原先架构
互联网数据采集
IDC 存储
数据预处理 + 推理标注
Python
Webdataset
解压
再次打包
webdataset
图片打分
Image
图片
Python
IDC Python 节点
row_id
文本数据集
Parquet
视频
训练平台
IDC 存储
docid 1 image(Binary)
docid 1 image(Binary)
docid 1 image(Binary)
docid 2 image(Binary)
Spark
解压md
解析段落
聚合去重
Finetune训练
TAR
List Binary
docid 1 Text(str) image(Binary)
docid 2 Text(str) image(Binary)
image(Binary)
image(Binary)
Shuffle
Join
Parquet
Text
Text(str) docid 1
Text(str) docid 2
文生图训练
label
image
强化学习训练
GPU训练节点池
IDC Spark 节点
Label
基模训练
图文混排数据集
ç
doc
IDC 存储
音频
模型训练
Webdataset
图片数据集
文本
多模态混排关联处理
火山引擎新方案架构
互联网数据采集 + AI数据湖管理
数据预处理 + 推理标注
Daft on Ray集群
图片数据集
文本
LANCE
Image
图片
音频
RAY
图片
打分
过滤
UDF清洗
训练平台
关联图像
元数据
CPU+GPU异构节点池
row_id
Daft on Ray 集群
文本数据集
解压md
视频
解析段落
Text
Label
模型训练
多模态混排 Daft + Lance RowIds 关联处理
docid 1 image(Binary) image_row_id
docid 1 image(Binary) image_row_id
docid 1 image(Binary) image_row_id
docid 2 image(Binary) image_row_id
收益:Lance row_id秒级点查
基模训练
图文混排数据集
ç
List row_id
docid 1 Text(str) image_row_id
docid 2 Text(str) image_row_id
聚合去重
image_row_id
Finetune 训练
image_row_id
doc
label
List Binary
docid 1 Text(str)
docid 2 Text(str)
CPU 节点池
image
docid 1 Text(str) image(Binary)
docid 2 Text(str) image(Binary)
文生图训练
image(Binary)
image(Binary)
强化学习训练
GPU 训练节点池
27. 场景痛点
升级收益
✓
✓
升级
收益
✓
28. 06
未来展望
29. 支持更丰富的多模类型
可观测性增强
Lance生态对接
基于Rust性能提升
30.
31.
32.