多模态理解在 AIGC 场景中的主要应用

1. 演讲人：高欢

2. 01 多种多样的AIGC 02 AIGC背后的多模态理解 03 如何提升多模态理解能力 04 多模态理解如何赋能AIGC 05 展望 06

3.

4. 01 多种多样的AIGC

5.

6.

7.

8. 02 AIGC的多模态理解

9. Qwen2-VL, https://arxiv.org/pdf/2409.12191 VideoChat-Flash, https://arxiv.org/pdf/2501.00574 模型训练 DiT Training 模型推理多模态信息输入多模态信息注入 Caption及数据准备 Mavors, https://arxiv.org/pdf/2504.10068 训练效果分析验证 DiT Inference 效果分析

10. MM-DiT, https://arxiv.org/pdf/2403.03206 Wan, https://arxiv.org/pdf/2503.20314

11. 抽取信息 +参考 ID保持风格保持 Step1X-Edit, https://arxiv.org/pdf/2504.17761v2 增加文本推理长度+参考 MetaQueries, https://arxiv.org/pdf/2504.06256 I2V-Adapter, https://arxiv.org/pdf/2312.16693

12. Any2Caption, https://arxiv.org/pdf/2503.24379

13. VPO, https://arxiv.org/pdf/2503.20491

14. 03 多模态理解能力提升

15. 好的模型选型优秀的 AIGC多模态理解模型高质量的训练数据有指导力的评测体系

16. MiraData, https://arxiv.org/pdf/2407.06358 VBench, https://arxiv.org/pdf/2311.17982 Vript, https://arxiv.org/pdf/2406.06040 DropletVideo, https://arxiv.org/pdf/2503.06053

17. TimeChat-Online, https://arxiv.org/pdf/2504.17343 AuroraCap, https://arxiv.org/pdf/2410.03051

18. Favor-Bench, https://arxiv.org/pdf/2503.14935 CameraBench, https://arxiv.org/pdf/2504.15376

19. CAPability, https://arxiv.org/pdf/2502.14914 DREAM-1K, https://arxiv.org/pdf/2407.00634

20. 04 多模态理解赋能AIGC

21. SkyReels-V2, https://arxiv.org/pdf/2504.13074

22. MoCha, https://arxiv.org/pdf/2503.23307

23. MovieAgent, https://arxiv.org/pdf/2503.07314

24. 05 展望

25. LLM发展路径视频生成发展路径刷分刷榜垂类/专项动漫/运镜/… 长上下文长视频生成深度推理？ Agent ？陪伴、代码、数学、… 论文助读、RAG、… R1、LongCoT、… Manus、BrowseComp、…

26. 文生图发展路径视频生成发展路径目标导向生成专用生成画面质量优化画面质量优化语义理解提升语义响应提升风格化和特色概念电影级片段生成精确文字生成？理解生成一体化？ Stable diffusion Diffusion Transformer 高质量专用数据高质量专用数据++ Unify model

27. 数字人 Character.ai AI男友, 电影《梦境》

28. 多种多样的AIGC ✓ 可灵的产品矩阵，不断提升可控性和增加新玩法 AIGC多模态理解 ✓ 对视频进行精准的理解和转述，是多模态理解赋能AIGC的最重要途径 AI多模态理解能力提升 ✓ 桥接灵感与画面的文字媒介，需要从数据组织、模型设计、评测监督等多个方面严格把控多模态理解赋能AIGC ✓ 重现甚至超越LLM一路走来的辉煌，让每个灵感都带上色彩

29.

30. 探索 AI 应用边界 Explore the limits of AI applications