ViPER- Empowering the Self-Evolution of Visual Perception Abilities in VisionLanguage Models

如果无法正常显示，请先停止浏览器的去广告插件。

1. ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision- Language Models 报告人：Song Jin 美团业务研发平台

2. Motivation 1）传统文本 CoT 在视觉密集任务上有天然瓶颈 2）现有 VLM 的视觉能力更偏“静态分析”，缺乏“视觉想象—反思—修正”闭环 3）RL 的 credit assignment 很容易跑偏

3. Core Idea 1）用生成促进理解生成模型将关键的视觉想象在图像空间显化，其作为context的重要补充，促使模型学会内化这些关键中间结果的视觉表达 2）用 on-policy/self-sourced 数据优化自身模型不是依赖外部教师模型不断提供off-policy数据，而是能自己产生数据、自己消费数据、并推动自身的进化。 3）用 coarse-to-fine 的方式组织这种自进化把训练目标设计成一个从全局到局部、从静态理解到细粒度变化理解的渐进过程。第一阶段先训练模型“看全局、找描述错误”；第二阶段再训练模型“盯局部、识别细微变化背后的操作意图”。

4. Methodology Overview: A Closed-loop Self-Evolution Framework

5. Stage 1: Caption Self-Refining 输入：原始图像 + 模型自己生成的初始 caption 输出：一组 refinement action，指出原 caption 中需要修正的内容训练目标：最小化模型输出的修正点集合与真实修正点集合之间的差异这一阶段强化的是：整体场景理解能力、视觉自反思能力以及对属性、文本、空间关系错误的识别能力

6. Stage 2: Visual-Operation Predicting 输入：一对高度相似、但存在细节差异的图像输出：将原图变成目标图所对应的 visual operation instruction 训练目标：最小化模型预测的视觉操作与真实编辑指令之间的差异这一阶段主要强化局部细节感知能力、图像差异对齐能力以及从变化反推意图的能力

7. Data Synthesis I: Image-level Reconstruction for Self-Critique 第一阶段的数据构造基于 image-level reconstruction 流程：VLM 根据原图生成初始 caption→生成模型根据 caption 重建图像→重建图与原图产生局部差异→ 利用这些差异引导模型修正 caption 关键思想：视觉到文本存在天然信息压缩，重建误差恰好暴露了 caption 中丢失或误解的视觉信息，因此生成模型不仅是 generator，更是 critic

8. Data Synthesis II: Instance-level Reconstruction for Fine-grained Perception 第二阶段的数据构造基于 instance-level reconstruction 流程： • 利用上游 refined caption • 选择最具挑战性的 hard entity • 基于启发式规则生成 visual operation instruction • 编辑模型执行该操作，得到编辑后的图像 • 编辑指令天然成为第二阶段的 ground truth 本质上，我们把“内部理解”转化为“可观测的局部变化”，再让模型从这些变化中学习细粒度感知

9. Two-stage Reinforcement Learning Reward Design Optimization Objective

10. Experimental Analysis 我们在 7 个 benchmark 上都观察到了稳定提升： • 3B 模型：overall 从 58.7 → 60.4，平均提升 +1.7 • 7B 模型：overall 从 64.4 → 66.0，平均提升 +1.6 提升覆盖： • 单图任务：MMStar / RealWorldQA / MME-RW / CRPE • 多图任务：BLINK / Mantis • 幻觉诊断：HallusionBench 这说明 ViPER 的收益不是单一 benchmark 偶然现象，而是具有跨任务泛化性

11. Experimental Analysis The biggest gain is perceptual, not linguistic. 为了分析能力来源，我们将 MMStar 拆成 6 个子域最显著的提升出现在 Fine-grained Perception： • 3B：48.4 → 52.8（+4.4） • 7B：55.6 → 61.6（+6.0）同时，Coarse Perception 和 Instance Reasoning 也有稳定收益这说明 ViPER 主要强化的是视觉感知本身，而不是单纯的文本推理套路

12. Experimental Analysis Cold-Start V.S. Non Cold-Start? 传统 RL 往往依赖高质量 cold-start 数据我们对比了两种设置： • SFT cold-start + two-stage RL • 无冷启动 two-stage RL 结果： • 无 cold-start 的 reward 起点更低 • 但在约 300 steps 后追平并反超 • 最终收敛到略高的 reward 这说明在 self-bootstrapping 设定下，外部 cold-start 不一定有利，甚至可能限制探索空间

13. Experimental Analysis Two-stage RL V.S. Mixed RL? 我们进一步比较了两种 RL 训练策略： • Two-stage RL：先 Caption Self-Refining，再 Visual- Operation Predicting • Mixed RL：两阶段数据随机混合训练结果：Two-stage RL 在六个 domain 上都优于 Mixed RL 原因在于： • 第一阶段负责建立全局静态场景理解 • 第二阶段在此基础上强化局部细节与变化理解这验证了我们最初的 coarse-to-fine 设计不是形式主义，而是训练上真正有效的结构

14. verbal reasoning to visually grounded reasoning 在第一阶段后： • CoT 词云中自发出现高频视觉操作词 • 如 scan / zoom in / look closely at / focus on 在第二阶段后： • attention 更集中在关键局部区域 • 说明模型能将“视觉操作意识”转化为更精确的感知注意力这表明 ViPER 不只是提升分数，也改变了模型的内部视觉工作流

15. Ablation Study 我们做了两组消融： • 只训练 Caption Self-Refining • 只训练 Visual-Operation Predicting each stage helps, but the full pipeline works best • 只做第一阶段：收益更均衡，更偏全局理解 • 只做第二阶段：对细粒度任务更敏感，但缺乏全局支撑 • 完整 ViPER 最优这说明两阶段并不是可替代关系，而是一个 global-to-local 的协同演化过程

16. Conclusion & Future Work Conclusion 我们提出了 ViPER，一个面向视觉感知增强的 closed-loop self-evolution framework，核心思想是：用生成促进理解，用自举数据驱动模型持续进化通过 Caption Self-Refining + Visual-Operation Predicting，我们将视觉感知学习组织成一个 coarse-to-fine 的两阶段过程通过 image-level / instance-level reconstruction + two-stage RL，我们把生成误差转化成了感知增强的训练信号 Future Work 从单图扩展到视频、多视角、3D 与具身场景：把“变化理解”推广到更复杂的视觉时空环境设计更直接的视觉 reward：减少对文本语义代理奖励的依赖，让 credit assignment 更直接作用于视觉表示持续在线 self-evolution：让模型动态发现新的 hard cases，而不是停留在固定数据集上与 latent visual reasoning 结合：探索像素空间外化推理与 latent 空间内部推理的统一框架

17. Q&A

18. 更多技术干货欢迎关注“美团技术团队”