基于MLLM的视频语义理解与时空感知
如果无法正常显示,请先停止浏览器的去广告插件。
1. 演讲人:赵波
1
2. 01 长视频理解评测集 MLVU
02 长视频理解大模型 Video-XL
03 空间理解大模型 SpatialBot
04 时空理解评测集 STI-Bench
2
3.
4. 01
4
5. • 视频内容理解
• 长视频的挑战
• 情节 • 信息量大
• 动作 • 信息冗余度高
• 推理 • 模型上下文有限
5
6. 存在的问题:
• 视频短且简单
• 分类任务为主
• 缺乏细节任务
• 视频主题单一
• 缺乏复杂问题
6
7. MLVU: Benchmarking Multi-task Long Video Understanding. Zhou et al. CVPR 2025.
7
8. 8
9. 9
10. 10
11. 11
12. 12
13. 7B
72B
13
14. 14
15. 15
16. • 推理前的 Token 压缩/挑选 会带来严重的信息损失
• 利用 LLM 固有的 Next-token Prediction 能力实现视觉语义 Token 压缩
[1] Long Context Compression with Activation Beacon. A plug-in module for transformer-based
LLMs to enable effective, efficient, and flexible compression of long contexts.
Video-XL: Towards Vision Language Models For Extra-Long Video Understanding. Shu et al. CVPR 2025 Oral
16
17. 17
18. ⚫ Partition tokens into intervals
⚫ Interleaving visual summarization tokens (VSTs)
⚫ Encoding (i+1) Intervals by the KVs of previous VSTs
18
19. 人工校验后:20k QAs
19
20. 20
21. 21
22. 22
23. Frames
Frames
23
24. 在MLVU上不同固定帧压缩率下模型性能
24
25. 25
26. 26
27. 27
28. 28
29. 02
29
30. 仅用 RGB 图片无法精确感知距离
30
31. ◼ 传统 MLLM 未见过深度图
◼ 传统 MLLM 未在深度相关任务上训练过
◼ 传统多模态数据集缺乏深度相关数据
31
32. SpatialBot: Precise Spatial Understanding with Vision Language Models. Cai et al. ICRA 2025
32
33. 33
34. 34
35. 35
36. 36
37. 37
38. 38
39. 39
40. STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding? Li et al. 2025 arXiv
40
41. 41
42. 42
43. 43
44. 44
45. 45
46. 46
47. • Information condensation is the most important for long video understanding.
• Spatial and Temporal Intelligence (STI) remains largely underexplored.
47
48.
49. 探索 AI 应用边界
Explore the limits of AI applications
49