[极致]加速多模态生成的算法设计与系统挑战
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:唐家声
2. Diffusion Transformer(DiT)
在视觉生成中因其卓越效果占主要地位
DiT 在实际应用中面临推理效率低下的重要挑战
·
·
·
3. 01 问题背景
02 问题背景
03 算法设计
04 算法设计
05 系统优化
06 总结与展望
4.
5. 01
6. 广泛用于图像生成、编辑、视频生成、药物发现等
图源:https://learnopencv.com/wp-content/uploads/2023/01/
7.
8. 效率
挑战:网络的生成能力与计算效率之间的平衡
13
45
19
效果
9. 模型Forward
A
模型剪枝
Token压缩/合并
Kernel
Token
B
…
扩散步数
C
模型单步计算
扩散步数
系统层面
低精度
多卡并行
高效Attention
系统层面加速
Cache类
步数蒸馏、一致性模型
高效采样器
10. 02
自适应的动态推理
DyDiT
RAPID 3
11.
12. 部分 timestep,大、小模型的去噪损
失差别很小
单一大网络存在结构上的冗余
不同空间位置的生成难度不同
网络在不同空间位置存在冗余计算
13. FLUX
· 12B · 86B
· 18s ·
· >250W · ~12W
· ·
/
14. DyDiT: 动态模型方案 RAPID3: 基于 RL 的加速策略
· ·
· ·
ICLR-2025
·
15. 逐时间步动态网络宽度
(Timestep-wise Dynamic Width)
空间动态token跳过机制
(Spatial-wise Dynamic Token)
16. 方法 - 结构
转化为二值掩码,用于离散决策
17. 方法 - 训练
·
·
18. 结果 - DiT 系列
19. 结果 - 可视化
图像不同区域的动态
计算分配
不同时间步的动态网
络宽度
20. 结果 - DiT 系列
21. DyDiT ++
与 Cache 类方法兼容
支持 LoRA 训练
22. DyDiT ++
DyFLUX 文生图
23. 03
自适应的动态推理
DyDiT
DyDiT II——RAPID 3
24. ·
·
25. 用尽量少的开销,获得动态推理的能力
26. 方法 - 结构
27. 方法 - 训练
𝐾
衰减系数,鼓励更小的𝐾
评测模型输出
(生成质量指标)
判别器输出
(与静态原模型输出一致的 likelihood)
28. 方法 - 训练
29. 结果 - 基于 SD3 / FLUX,与单一加速策略比较
✓ 更优的效率-质量trade-off
30. 结果 - 基于 FLUX,与动态模型比较
31. 结果 - 基于 FLUX,可视化不同图像、不同时间步的动态策略
32. 模型Forward
A
模型剪枝
Token压缩/合并
Kernel
Token
B
…
扩散步数
C
模型单步计算
扩散步数
系统层面
低精度
多卡并行
高效Attention
系统层面加速
Cache类
步数蒸馏、一致性模型
高效采样器
33. 04
高效的Kernel设计
FPS Attention
34. 𝑂(𝑁 2 𝑑)
𝑂(𝑁𝑑 2 )
100% 10,000
80% 8,000
60% 6,000
40% 4,000
20% 2,000
0%
0
2
8
16
Attention
FLOPs
32
Attention计算占比
35. ·
·
·
直接结合FP8与稀疏化
STA + (Per Tensor) FP8
FPS Attention
36. 概览
FPS Attention:硬件友好的粒度、对齐的训练,速度7x
37. Flash Attention
·
S=
𝑄𝐾
𝑇
·
𝑑
𝑃 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑆
𝑂 = 𝑃𝑉
(QK)粒度设计
Dequant
FA
38. QK粒度与硬件友好
Joint quantization and sparsity error patterns across denoising steps
V用Per Channel;P用Per Tensor量化
39. ·
·
40. 基于FlexAttention,修改编译出来的Triton Kernel
41. 彩蛋:因为引入稀疏感知的训练,微调也可以加速30%
42. General
✓ DyDiT token
✓ RAPID3 RL
scheduler、cache、sparse
&
✓ FPS Attention
FlashAttention
1. Zhao, W., Han, Y., Tang, J., et al. (2024). Dynamic diffusion transformer. ICLR, 2025.
2. Zhao, W., Han, Y., Tang, J., et al. DyDiT++: Dynamic Diffusion Transformers for Efficient Visual
Generation. arXiv:2504.06803.
3. Zhao, W., Han, Y., Tang, J., et al. RAPID$^3$: Tri-Level Reinforced Acceleration Policies for Diffusion
Transformer. TBD
4. FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion. arXiv: 2506.04648.
Code
https://github.com/alibaba-damo-academy
43. 联合设计的算法&系统优化,是极致加速多模态生成大模型的必经之路
DyDiT, RAPID, FPSAttention
模型Forward
扩散步数
系统层面加速
44. 多模态生成速度的“aha”时刻:
45. ✓ 本科毕业于哈尔滨工业大学(2015)
✓ 2014年进入iDST(达摩院前身)实习,国内第2位成员
✓ 带领团队在CVPR/ICCV/ECCV的竞赛多次获得第一名
✓ 文章发表在多个顶级学术会议
✓ 深入过阿里诸多业务场景
46.
47.