ViPER- Empowering the Self-Evolution of Visual Perception Abilities in VisionLanguage Models
如果无法正常显示,请先停止浏览器的去广告插件。
1. ViPER: Empowering the Self-Evolution of
Visual Perception Abilities in Vision-
Language Models
报告人:Song Jin
美团业务研发平台
2. Motivation
1)传统文本 CoT 在视觉密集任务上有天然瓶颈
2)现有 VLM 的视觉能力更偏“静态分析”,缺乏“视觉想象—反思—修正”闭环
3)RL 的 credit assignment 很容易跑偏
3. Core Idea
1)用生成促进理解
生成模型将关键的视觉想象在图像空间显化,其作为context的重要补充,促使模型学会内化这些关键中间结果的
视觉表达
2)用 on-policy/self-sourced 数据优化自身
模型不是依赖外部教师模型不断提供off-policy数据,而是能自己产生数据、自己消费数据、并推动自身的进化。
3)用 coarse-to-fine 的方式组织这种自进化
把训练目标设计成一个从全局到局部、从静态理解到细粒度变化理解的渐进过程。第一阶段先训练模型“看全
局、找描述错误”;第二阶段再训练模型“盯局部、识别细微变化背后的操作意图”。
4. Methodology Overview: A Closed-loop Self-Evolution Framework
5. Stage 1: Caption Self-Refining
输入:原始图像 + 模型自己生成的初始 caption
输出:一组 refinement action,指出原 caption 中需要修正的内容
训练目标:最小化模型输出的修正点集合与真实修正点集合之间的差异
这一阶段强化的是:整体场景理解能力、视觉自反思能力以及对属性、文本、空间关系错误的识别能力
6. Stage 2: Visual-Operation Predicting
输入:一对高度相似、但存在细节差异的图像
输出:将原图变成目标图所对应的 visual operation instruction
训练目标:最小化模型预测的视觉操作与真实编辑指令之间的差异
这一阶段主要强化局部细节感知能力、图像差异对齐能力以及从变化反推意图的能力
7. Data Synthesis I: Image-level Reconstruction for Self-Critique
第一阶段的数据构造基于 image-level reconstruction
流程:VLM 根据原图生成初始 caption→生成模型根据 caption 重建图像→重建图与原图产生局部差异→
利用这些差异引导模型修正 caption
关键思想:视觉到文本存在天然信息压缩,重建误差恰好暴露了 caption 中丢失或误解的视觉信息,因此
生成模型不仅是 generator,更是 critic
8. Data Synthesis II: Instance-level Reconstruction for Fine-grained Perception
第二阶段的数据构造基于 instance-level reconstruction
流程:
• 利用上游 refined caption
• 选择最具挑战性的 hard entity
• 基于启发式规则生成 visual operation instruction
• 编辑模型执行该操作,得到编辑后的图像
• 编辑指令天然成为第二阶段的 ground truth
本质上,我们把“内部理解”转化为“可观测的局部变化”,再让模型从这些变化中学习细粒度感知
9. Two-stage Reinforcement Learning
Reward Design
Optimization Objective
10. Experimental Analysis
我们在 7 个 benchmark 上都观察到了稳定提升:
• 3B 模型:overall 从 58.7 → 60.4,平均提升 +1.7
• 7B 模型:overall 从 64.4 → 66.0,平均提升 +1.6
提升覆盖:
• 单图任务:MMStar / RealWorldQA / MME-RW / CRPE
• 多图任务:BLINK / Mantis
• 幻觉诊断:HallusionBench
这说明 ViPER 的收益不是单一 benchmark 偶然现象,而是具有跨任务泛化性
11. Experimental Analysis
The biggest gain is perceptual, not linguistic.
为了分析能力来源,我们将 MMStar 拆成 6 个子域
最显著的提升出现在 Fine-grained Perception:
• 3B:48.4 → 52.8(+4.4)
• 7B:55.6 → 61.6(+6.0)
同时,Coarse Perception 和 Instance Reasoning 也有稳定收益
这说明 ViPER 主要强化的是 视觉感知本身,而不是单纯的文本推理套路
12. Experimental Analysis
Cold-Start V.S. Non Cold-Start?
传统 RL 往往依赖高质量 cold-start 数据
我们对比了两种设置:
• SFT cold-start + two-stage RL
• 无冷启动 two-stage RL
结果:
• 无 cold-start 的 reward 起点更低
• 但在 约 300 steps 后追平并反超
• 最终收敛到略高的 reward
这说明在 self-bootstrapping 设定下,外部 cold-start 不一定有利,甚至
可能限制探索空间
13. Experimental Analysis
Two-stage RL V.S. Mixed RL?
我们进一步比较了两种 RL 训练策略:
• Two-stage RL:先 Caption Self-Refining,再 Visual-
Operation Predicting
• Mixed RL:两阶段数据随机混合训练
结果:Two-stage RL 在六个 domain 上都优于 Mixed RL
原因在于:
• 第一阶段负责建立全局静态场景理解
• 第二阶段在此基础上强化局部细节与变化理解
这验证了我们最初的 coarse-to-fine 设计不是形式主义,而是训练上
真正有效的结构
14. verbal reasoning to visually grounded reasoning
在第一阶段后:
• CoT 词云中自发出现高频视觉操作词
• 如 scan / zoom in / look closely at / focus on
在第二阶段后:
• attention 更集中在关键局部区域
• 说明模型能将“视觉操作意识”转化为更精确的感知注意力
这表明 ViPER 不只是提升分数,也改变了模型的内部视觉工作流
15. Ablation Study
我们做了两组消融:
• 只训练 Caption Self-Refining
• 只训练 Visual-Operation Predicting
each stage helps, but the full
pipeline works best
• 只做第一阶段:收益更均衡,更偏全局理解
• 只做第二阶段:对细粒度任务更敏感,但缺乏全局支撑
• 完整 ViPER 最优
这说明两阶段并不是可替代关系,而是一个 global-to-local 的协同演化过程
16. Conclusion & Future Work
Conclusion
我们提出了 ViPER,一个面向视觉感知增强的 closed-loop self-evolution framework,核心思想是:用生成促进
理解,用自举数据驱动模型持续进化
通过 Caption Self-Refining + Visual-Operation Predicting,我们将视觉感知学习组织成一个 coarse-to-fine 的两
阶段过程
通过 image-level / instance-level reconstruction + two-stage RL,我们把生成误差转化成了感知增强的训练信号
Future Work
从单图扩展到视频、多视角、3D 与具身场景:把“变化理解”推广到更复杂的视觉时空环境
设计更直接的视觉 reward:减少对文本语义代理奖励的依赖,让 credit assignment 更直接作用于视觉表示
持续在线 self-evolution:让模型动态发现新的 hard cases,而不是停留在固定数据集上
与 latent visual reasoning 结合:探索像素空间外化推理与 latent 空间内部推理的统一框架
17. Q&A
18. 更多技术干货
欢迎关注“美团技术团队”