千卡级分布式集群上的视觉多模态大模型落地实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:王兆雄
2.
3.
4. 01 多模态大模型的训练工程挑战 02 AI Infra 四大优化方向 03 训练工程案例:LLaVA & DiT 04 AI Infra 未来展望
5.
6. 01
7. 文本 图像 音频 LMM 视频 更多模态 …
8.
9. 计算资源压力 存储与加载瓶颈 数据吞吐限制 通信与并行难点
10. 视觉多模态大模型训练路径 训练链路中的典型瓶颈 • • • •
11. 02
12. 多模态训练不是“卡”先堵,而是“数”先断流。 加载慢、预处理慢、跨集群 IO 慢,是吞吐变慢的幕后推手 典型数据处理路径与瓶颈点 数据存储与准备阶段优化 ✓ ✓ 训练阶段优化 ✓ ✓ 数据流通顺了,训练才真正动起来。
13. 算力利用率低,不是卡的问题,而是模型结构与调度未优化好 视觉多模态模型计算链路 算力浪费点(典型计算瓶颈) 优化方向(我们可以怎么做) • ✓ • ✓ • • ✓ ✓ 结构调顺了,每张卡都能跑得值。
14. 多卡训练不是“算”太慢,而是“等”太久 通信链路瓶颈示意图 通信瓶颈点(导致 GPU 空等 & 吞吐下降) • • • • 优化方向(我们可以怎么做) ✓ ✓ ✓ ✓ 通信链路通了,训练才能跑得顺。
15. 多模态训练不是“快”就够,更要“稳”得住 稳定性挑战与优化 • ✓ • • ✓ • • • ✓ ✓ ✓ ✓ • ✓ 优化策略覆盖关键环节
16. 03
17. 工程挑战 优化目标 ✓ ✓ ✓ ✓
18. ➢ ➢ ➢ ➢ ➢ ✓ ✓
19. ➢ ➢ ➢ ➢ ✓ ✓
20. ➢ ➢ ➢ ➢ ✓ ✓
21. ➢ Device 0 1 1 2 2 3 3 4 4 Device 1 1 1 1 2 2 3 3 4 4 Device 2 1 1 2 2 3 3 4 4 Device 3 1 1 5 5 1 1 1 2 2 2 2 2 2 6 6 5 5 3 3 3 3 3 3 5 5 4 4 7 7 6 6 4 4 4 4 6 6 5 5 8 8 7 7 5 5 5 5 7 7 6 6 6 8 8 6 6 9 9 10 8 7 7 8 7 8 8 7 7 7 6 10 11 11 12 12 9 9 10 10 11 11 12 12 8 8 8 9 9 9 10 10 11 11 12 12 8 9 9 9 ➢ 9 10 10 10 ➢ Device 0 1~8 Device 1 Device 2 Device 3 1 2 3 4 1 2 3 4 1 2 3 1 1 1 4 1 1 2 5 3 4 3 3 3 3 6 5 2 2 2 2 5 4 7 6 4 5 4 4 6 5 8 7 5 6 5 5 7 6 6 8 6 6 7 8 7 7 7 7 8 8 8 8 8 9~16 9 10 11 12 9 10 11 12 9 10 11 9 9 12 9 9 10 10 ✓
22.
23. ➢ ➢ ✓
24. ➢ ➢ ➢ ✓
25. ➢ ➢ ✓ ✓
26. ➢ ➢ ➢ ✓ ✓
27. ➢ ✓ ➢ ✓ ➢ ✓ ➢ ✓ ➢ ✓ ➢ ✓ ➢ ✓ ➢ ✓
28. 04
29. • • 算法 落地路径 ✓ • ✓ • 算力 • • 数据
30. ✓ 训练工程做稳,模型才能走远 ✓ 打通训练链路,才能跑通多模态闭环 ✓ 算法迭代靠创新,更靠工程支撑
31.
32. 探索 AI 应用边界 Explore the limits of AI applications

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-27 16:04
浙ICP备14020137号-1 $mapa de visitantes$