[极致]加速多模态生成的算法设计与系统挑战

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:唐家声
2. Diffusion Transformer(DiT) 在视觉生成中因其卓越效果占主要地位 DiT 在实际应用中面临推理效率低下的重要挑战 · · ·
3. 01 问题背景 02 问题背景 03 算法设计 04 算法设计 05 系统优化 06 总结与展望
4.
5. 01
6. 广泛用于图像生成、编辑、视频生成、药物发现等 图源:https://learnopencv.com/wp-content/uploads/2023/01/
7.
8. 效率 挑战:网络的生成能力与计算效率之间的平衡 13 45 19 效果
9. 模型Forward A 模型剪枝 Token压缩/合并 Kernel Token B … 扩散步数 C 模型单步计算 扩散步数 系统层面 低精度 多卡并行 高效Attention 系统层面加速 Cache类 步数蒸馏、一致性模型 高效采样器
10. 02 自适应的动态推理 DyDiT RAPID 3
11.
12. 部分 timestep,大、小模型的去噪损 失差别很小 单一大网络存在结构上的冗余 不同空间位置的生成难度不同 网络在不同空间位置存在冗余计算
13. FLUX · 12B · 86B · 18s · · >250W · ~12W · · /
14. DyDiT: 动态模型方案 RAPID3: 基于 RL 的加速策略 · · · · ICLR-2025 ·
15. 逐时间步动态网络宽度 (Timestep-wise Dynamic Width) 空间动态token跳过机制 (Spatial-wise Dynamic Token)
16. 方法 - 结构 转化为二值掩码,用于离散决策
17. 方法 - 训练 · ·
18. 结果 - DiT 系列
19. 结果 - 可视化 图像不同区域的动态 计算分配 不同时间步的动态网 络宽度
20. 结果 - DiT 系列
21. DyDiT ++ 与 Cache 类方法兼容 支持 LoRA 训练
22. DyDiT ++ DyFLUX 文生图
23. 03 自适应的动态推理 DyDiT DyDiT II——RAPID 3
24. · ·
25. 用尽量少的开销,获得动态推理的能力
26. 方法 - 结构
27. 方法 - 训练 𝐾 衰减系数,鼓励更小的𝐾 评测模型输出 (生成质量指标) 判别器输出 (与静态原模型输出一致的 likelihood)
28. 方法 - 训练
29. 结果 - 基于 SD3 / FLUX,与单一加速策略比较 ✓ 更优的效率-质量trade-off
30. 结果 - 基于 FLUX,与动态模型比较
31. 结果 - 基于 FLUX,可视化不同图像、不同时间步的动态策略
32. 模型Forward A 模型剪枝 Token压缩/合并 Kernel Token B … 扩散步数 C 模型单步计算 扩散步数 系统层面 低精度 多卡并行 高效Attention 系统层面加速 Cache类 步数蒸馏、一致性模型 高效采样器
33. 04 高效的Kernel设计 FPS Attention
34. 𝑂(𝑁 2 𝑑) 𝑂(𝑁𝑑 2 ) 100% 10,000 80% 8,000 60% 6,000 40% 4,000 20% 2,000 0% 0 2 8 16 Attention FLOPs 32 Attention计算占比
35. · · · 直接结合FP8与稀疏化 STA + (Per Tensor) FP8 FPS Attention
36. 概览 FPS Attention:硬件友好的粒度、对齐的训练,速度7x
37. Flash Attention · S= 𝑄𝐾 𝑇 · 𝑑 𝑃 = 𝑆𝑜𝑓𝑡𝑚𝑎𝑥 𝑆 𝑂 = 𝑃𝑉 (QK)粒度设计 Dequant FA
38. QK粒度与硬件友好 Joint quantization and sparsity error patterns across denoising steps V用Per Channel;P用Per Tensor量化
39. · ·
40. 基于FlexAttention,修改编译出来的Triton Kernel
41. 彩蛋:因为引入稀疏感知的训练,微调也可以加速30%
42. General ✓ DyDiT token ✓ RAPID3 RL scheduler、cache、sparse & ✓ FPS Attention FlashAttention 1. Zhao, W., Han, Y., Tang, J., et al. (2024). Dynamic diffusion transformer. ICLR, 2025. 2. Zhao, W., Han, Y., Tang, J., et al. DyDiT++: Dynamic Diffusion Transformers for Efficient Visual Generation. arXiv:2504.06803. 3. Zhao, W., Han, Y., Tang, J., et al. RAPID$^3$: Tri-Level Reinforced Acceleration Policies for Diffusion Transformer. TBD 4. FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion. arXiv: 2506.04648. Code https://github.com/alibaba-damo-academy
43. 联合设计的算法&系统优化,是极致加速多模态生成大模型的必经之路 DyDiT, RAPID, FPSAttention 模型Forward 扩散步数 系统层面加速
44. 多模态生成速度的“aha”时刻:
45. ✓ 本科毕业于哈尔滨工业大学(2015) ✓ 2014年进入iDST(达摩院前身)实习,国内第2位成员 ✓ 带领团队在CVPR/ICCV/ECCV的竞赛多次获得第一名 ✓ 文章发表在多个顶级学术会议 ✓ 深入过阿里诸多业务场景
46.
47.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-10-24 22:57
浙ICP备14020137号-1 $访客地图$