多模态理解在 AIGC 场景中的主要应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:高欢
2. 01 多种多样的AIGC
02 AIGC背后的多模态理解
03 如何提升多模态理解能力
04 多模态理解如何赋能AIGC
05 展望
06
3.
4. 01
多种多样的AIGC
5.
6.
7.
8. 02
AIGC的多模态理解
9. Qwen2-VL, https://arxiv.org/pdf/2409.12191
VideoChat-Flash, https://arxiv.org/pdf/2501.00574
模型训练
DiT Training
模型推理
多模态信
息输入
多模态
信息注入
Caption及
数据准备
Mavors, https://arxiv.org/pdf/2504.10068
训练效果
分析验证
DiT Inference
效果分析
10. MM-DiT, https://arxiv.org/pdf/2403.03206
Wan, https://arxiv.org/pdf/2503.20314
11. 抽取信息
+参考
ID保持
风格保持
Step1X-Edit, https://arxiv.org/pdf/2504.17761v2
增加文本推理
长度+参考
MetaQueries, https://arxiv.org/pdf/2504.06256
I2V-Adapter, https://arxiv.org/pdf/2312.16693
12. Any2Caption, https://arxiv.org/pdf/2503.24379
13. VPO, https://arxiv.org/pdf/2503.20491
14. 03
多模态理解能力提升
15. 好的模型
选型
优秀的
AIGC多模
态理解模
型
高质量的
训练数据
有指导力
的评测体
系
16. MiraData, https://arxiv.org/pdf/2407.06358
VBench, https://arxiv.org/pdf/2311.17982
Vript, https://arxiv.org/pdf/2406.06040
DropletVideo, https://arxiv.org/pdf/2503.06053
17. TimeChat-Online, https://arxiv.org/pdf/2504.17343
AuroraCap, https://arxiv.org/pdf/2410.03051
18. Favor-Bench, https://arxiv.org/pdf/2503.14935
CameraBench, https://arxiv.org/pdf/2504.15376
19. CAPability, https://arxiv.org/pdf/2502.14914
DREAM-1K, https://arxiv.org/pdf/2407.00634
20. 04
多模态理解赋能AIGC
21. SkyReels-V2, https://arxiv.org/pdf/2504.13074
22. MoCha, https://arxiv.org/pdf/2503.23307
23. MovieAgent, https://arxiv.org/pdf/2503.07314
24. 05
展望
25. LLM发展路径 视频生成发展路径
刷分 刷榜
垂类/专项 动漫/运镜/…
长上下文 长视频生成
深度推理 ?
Agent ?
陪伴、代码、数学、…
论文助读、RAG、…
R1、LongCoT、…
Manus、BrowseComp、…
26. 文生图发展路径
视频生成发展路径
目标导向生成 专用生成
画面质量优化 画面质量优化
语义理解提升 语义响应提升
风格化和特色概念 电影级片段生成
精确文字生成 ?
理解生成一体化 ?
Stable diffusion
Diffusion Transformer
高质量专用数据
高质量专用数据++
Unify model
27. 数字人
Character.ai
AI男友, 电影《梦境》
28. 多种多样的AIGC
✓
可灵的产品矩阵,不断提升可控性和增加新玩法
AIGC多模态理解
✓
对视频进行精准的理解和转述,是多模态理解赋能AIGC的最重要途径
AI多模态理解能力提升
✓
桥接灵感与画面的文字媒介,需要从数据组织、模型设计、评测监督等多个方面严格把控
多模态理解赋能AIGC
✓
重现甚至超越LLM一路走来的辉煌,让每个灵感都带上色彩
29.
30. 探索 AI 应用边界
Explore the limits of AI applications