多模态理解在 AIGC 场景中的主要应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 演讲人:高欢
2. 01 多种多样的AIGC 02 AIGC背后的多模态理解 03 如何提升多模态理解能力 04 多模态理解如何赋能AIGC 05 展望 06
3.
4. 01 多种多样的AIGC
5.
6.
7.
8. 02 AIGC的多模态理解
9. Qwen2-VL, https://arxiv.org/pdf/2409.12191 VideoChat-Flash, https://arxiv.org/pdf/2501.00574 模型训练 DiT Training 模型推理 多模态信 息输入 多模态 信息注入 Caption及 数据准备 Mavors, https://arxiv.org/pdf/2504.10068 训练效果 分析验证 DiT Inference 效果分析
10. MM-DiT, https://arxiv.org/pdf/2403.03206 Wan, https://arxiv.org/pdf/2503.20314
11. 抽取信息 +参考 ID保持 风格保持 Step1X-Edit, https://arxiv.org/pdf/2504.17761v2 增加文本推理 长度+参考 MetaQueries, https://arxiv.org/pdf/2504.06256 I2V-Adapter, https://arxiv.org/pdf/2312.16693
12. Any2Caption, https://arxiv.org/pdf/2503.24379
13. VPO, https://arxiv.org/pdf/2503.20491
14. 03 多模态理解能力提升
15. 好的模型 选型 优秀的 AIGC多模 态理解模 型 高质量的 训练数据 有指导力 的评测体 系
16. MiraData, https://arxiv.org/pdf/2407.06358 VBench, https://arxiv.org/pdf/2311.17982 Vript, https://arxiv.org/pdf/2406.06040 DropletVideo, https://arxiv.org/pdf/2503.06053
17. TimeChat-Online, https://arxiv.org/pdf/2504.17343 AuroraCap, https://arxiv.org/pdf/2410.03051
18. Favor-Bench, https://arxiv.org/pdf/2503.14935 CameraBench, https://arxiv.org/pdf/2504.15376
19. CAPability, https://arxiv.org/pdf/2502.14914 DREAM-1K, https://arxiv.org/pdf/2407.00634
20. 04 多模态理解赋能AIGC
21. SkyReels-V2, https://arxiv.org/pdf/2504.13074
22. MoCha, https://arxiv.org/pdf/2503.23307
23. MovieAgent, https://arxiv.org/pdf/2503.07314
24. 05 展望
25. LLM发展路径 视频生成发展路径 刷分 刷榜 垂类/专项 动漫/运镜/… 长上下文 长视频生成 深度推理 ? Agent ? 陪伴、代码、数学、… 论文助读、RAG、… R1、LongCoT、… Manus、BrowseComp、…
26. 文生图发展路径 视频生成发展路径 目标导向生成 专用生成 画面质量优化 画面质量优化 语义理解提升 语义响应提升 风格化和特色概念 电影级片段生成 精确文字生成 ? 理解生成一体化 ? Stable diffusion Diffusion Transformer 高质量专用数据 高质量专用数据++ Unify model
27. 数字人 Character.ai AI男友, 电影《梦境》
28. 多种多样的AIGC ✓ 可灵的产品矩阵,不断提升可控性和增加新玩法 AIGC多模态理解 ✓ 对视频进行精准的理解和转述,是多模态理解赋能AIGC的最重要途径 AI多模态理解能力提升 ✓ 桥接灵感与画面的文字媒介,需要从数据组织、模型设计、评测监督等多个方面严格把控 多模态理解赋能AIGC ✓ 重现甚至超越LLM一路走来的辉煌,让每个灵感都带上色彩
29.
30. 探索 AI 应用边界 Explore the limits of AI applications

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.0. UTC+08:00, 2025-10-27 00:23
浙ICP备14020137号-1 $お客様$