千卡级分布式集群上的视觉多模态大模型落地实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:王兆雄
2.
3.
4. 01 多模态大模型的训练工程挑战
02 AI Infra 四大优化方向
03 训练工程案例:LLaVA & DiT
04 AI Infra 未来展望
5.
6. 01
7. 文本
图像
音频
LMM
视频
更多模态
…
8.
9. 计算资源压力
存储与加载瓶颈
数据吞吐限制
通信与并行难点
10. 视觉多模态大模型训练路径
训练链路中的典型瓶颈
•
•
•
•
11. 02
12. 多模态训练不是“卡”先堵,而是“数”先断流。 加载慢、预处理慢、跨集群 IO 慢,是吞吐变慢的幕后推手
典型数据处理路径与瓶颈点
数据存储与准备阶段优化
✓
✓
训练阶段优化
✓
✓
数据流通顺了,训练才真正动起来。
13. 算力利用率低,不是卡的问题,而是模型结构与调度未优化好
视觉多模态模型计算链路
算力浪费点(典型计算瓶颈) 优化方向(我们可以怎么做)
• ✓
•
✓
•
•
✓
✓
结构调顺了,每张卡都能跑得值。
14. 多卡训练不是“算”太慢,而是“等”太久
通信链路瓶颈示意图
通信瓶颈点(导致 GPU 空等 & 吞吐下降)
•
•
•
•
优化方向(我们可以怎么做)
✓
✓
✓
✓
通信链路通了,训练才能跑得顺。
15. 多模态训练不是“快”就够,更要“稳”得住
稳定性挑战与优化
• ✓
•
• ✓
•
•
•
✓
✓
✓
✓
•
✓
优化策略覆盖关键环节
16. 03
17. 工程挑战
优化目标
✓
✓
✓
✓
18. ➢
➢
➢
➢
➢
✓
✓
19. ➢
➢
➢
➢
✓
✓
20. ➢
➢
➢
➢
✓
✓
21. ➢
Device 0 1 1 2 2 3 3 4 4
Device 1
1
1 1 2 2 3 3 4 4
Device 2
1 1 2 2 3 3 4 4
Device 3
1 1
5 5
1
1
1
2
2
2
2 2
2
6 6
5 5
3
3 3
3
3
3
5 5
4 4
7 7
6 6
4
4
4
4
6 6
5 5
8 8
7 7
5
5
5
5
7 7
6 6
6
8 8
6
6
9 9 10
8
7
7
8
7
8 8
7 7
7
6
10 11 11 12 12
9
9 10 10 11 11 12 12
8
8 8
9
9 9 10 10 11 11 12 12
8
9
9
9
➢
9
10 10
10
➢
Device 0 1~8
Device 1
Device 2
Device 3
1
2 3 4
1 2 3 4
1 2 3
1
1
1
4
1
1
2
5
3
4
3
3
3
3
6
5
2
2
2
2
5
4
7
6
4
5
4
4
6
5
8
7
5
6
5
5
7
6
6
8
6
6
7
8
7
7
7
7
8
8
8
8
8
9~16
9
10 11 12 9 10 11 12
9 10 11
9
9
12
9
9
10
10
✓
22.
23. ➢
➢
✓
24. ➢
➢
➢
✓
25. ➢
➢
✓
✓
26. ➢
➢
➢
✓
✓
27. ➢ ✓
➢ ✓
➢ ✓
➢ ✓
➢ ✓
➢ ✓
➢ ✓
➢ ✓
28. 04
29. •
•
算法
落地路径
✓
•
✓
•
算力
•
•
数据
30. ✓ 训练工程做稳,模型才能走远
✓ 打通训练链路,才能跑通多模态闭环
✓ 算法迭代靠创新,更靠工程支撑
31.
32. 探索 AI 应用边界
Explore the limits of AI applications