Daft:面向AI的多模数据湖计算引擎

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:琚克俭
2. 01 AI带来的数据湖变革 02 Daft多模计算定位 03 Daft核心场景 04 Daft+Lance数据湖新范式 05 Daft大规模数据处理实践 06 未来展望
3.
4. 01 AI带来的数据湖变革
5. ➢ ChatBI / Agent/ 智驾/基模/具身/... ➢ Database -> Dataset ➢ Table/View -> Volume/Model/Function ➢ ➢ ➢ ➢ ➢
6. 大模型发展迅速,数据处理领域快速从纯文本场景扩展到了文本、图片以及音视频等联合的多模态场景, 多模态数据管理相比原有的仅文本处理也有了新的技术挑战。
7.
8. 02 Daft多模计算定位
9. 单机与分布式统一 多模与结构化统一 CPU与GPU异构统一 DaftFrame与SQL统一 预处理+推理+训练统一
10. ✓ ✓ ✓ ✓ 框架概览
11. 03 Daft核心场景
12.
13. CPU+GPU异构 基于Ray的流式计算 少参数并发控制 Iterator数据输出
14. 图文混排示例
15. ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ ⚫ 自定义binary文件 ⚫ ⚫ 文本+图片+音视频 Embedding/Tensor Arrow扩展类型
16. LLM推理
17. 无限扩展预处理集群, 打破gpu训练机型的限制 Daft作为内存缓冲器,预 处理数据从S3/PFS上预加 载到内存中 Train Resume. 练中断按照 Daft保存的Step状态处恢复 Rust减少GIL锁问题
18. 04 Daft+Lance数据湖新范式
19. 大小列统一存储 Zero-Cost Data Evolution 高性能随机点查 透明编码
20. ?图片/视频是存S3文件还是存lance列 ✓ ✓ Url延迟Download 文件与结构化列统一存储
21. 多模对象的KV方式访问 ✓ ✓ ✓
22. ✓ ✓ ✓ ✓ AI领域的湖计算和湖存储
23. 05 Daft大规模数据处理实践
24. 客户原先架构 车端数据采集 数据预处理 + 推理标注 数据挖掘 & 管理 模型训练 训练平台 TOS 关键帧筛选 Argo 调度平台 数据集新建 车机端数据 终端采集数据 车机端数据 Data 解包 Data 清洗 持久化 Data 自动化标注 TOS ç 清洗后的数据 sensor.tar 预热数据集 CPU 节点池 GPU 推理节点池 数据 Dataloader sensor.mdb 手工管理 label.Imdb label.tar vePFS 数据集合并 标签增加 sensor.Imdb 资源隔离 车机端数据 数据 Shuffle 数据集预热 文本提取 识别训练 label.Imdb 数据集处理血缘(CSV) index.json index.json CPU 节点池 规控训练 CPU 节点池 GPU 训练节点池 火山引擎新方案架构 车端数据采集 数据预处理 + 推理标注 TOS 车机端数据 终端采集数据 车机端数据 Data 解包 Data 清洗 Data 自动化标注 AI 数据湖 LAS 平台 训练平台 vePFS 数据集新建 数据集预热 文本提取 数据集合并 sensor col label.tar sensor col AI 数据湖管理 label col CPU 节点池 GPU 推理节点池 预热数据集 Lance 标签增加 混合资源池 车机端数据 ç 清洗后的数据 sensor.tar 模型训练 关键帧筛选 TOS Shared Mem 数据挖掘 & 管理 数据集入湖 数据集管理 CPU 节点池 数据探查 Lance Shuffle Daft on Ray Remote Dataloader 识别训练 label col 数据血缘 CPU 节点池 数据分层 规控训练 GPU 训练节点池
25. 场景痛点 升级收益 ✓ 升级 收益 ✓ ✓ ✓
26. 客户原先架构 互联网数据采集 IDC 存储 数据预处理 + 推理标注 Python Webdataset 解压 再次打包 webdataset 图片打分 Image 图片 Python IDC Python 节点 row_id 文本数据集 Parquet 视频 训练平台 IDC 存储 docid 1 image(Binary) docid 1 image(Binary) docid 1 image(Binary) docid 2 image(Binary) Spark 解压md 解析段落 聚合去重 Finetune训练 TAR List Binary docid 1 Text(str) image(Binary) docid 2 Text(str) image(Binary) image(Binary) image(Binary) Shuffle Join Parquet Text Text(str) docid 1 Text(str) docid 2 文生图训练 label image 强化学习训练 GPU训练节点池 IDC Spark 节点 Label 基模训练 图文混排数据集 ç doc IDC 存储 音频 模型训练 Webdataset 图片数据集 文本 多模态混排关联处理 火山引擎新方案架构 互联网数据采集 + AI数据湖管理 数据预处理 + 推理标注 Daft on Ray集群 图片数据集 文本 LANCE Image 图片 音频 RAY 图片 打分 过滤 UDF清洗 训练平台 关联图像 元数据 CPU+GPU异构节点池 row_id Daft on Ray 集群 文本数据集 解压md 视频 解析段落 Text Label 模型训练 多模态混排 Daft + Lance RowIds 关联处理 docid 1 image(Binary) image_row_id docid 1 image(Binary) image_row_id docid 1 image(Binary) image_row_id docid 2 image(Binary) image_row_id 收益:Lance row_id秒级点查 基模训练 图文混排数据集 ç List row_id docid 1 Text(str) image_row_id docid 2 Text(str) image_row_id 聚合去重 image_row_id Finetune 训练 image_row_id doc label List Binary docid 1 Text(str) docid 2 Text(str) CPU 节点池 image docid 1 Text(str) image(Binary) docid 2 Text(str) image(Binary) 文生图训练 image(Binary) image(Binary) 强化学习训练 GPU 训练节点池
27. 场景痛点 升级收益 ✓ ✓ 升级 收益 ✓
28. 06 未来展望
29. 支持更丰富的多模类型 可观测性增强 Lance生态对接 基于Rust性能提升
30.
31.
32.

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-22 16:54
浙ICP备14020137号-1 $Map of visitor$