ViPER- Empowering the Self-Evolution of Visual Perception Abilities in VisionLanguage Models

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision- Language Models 报告人:Song Jin 美团业务研发平台
2. Motivation 1)传统文本 CoT 在视觉密集任务上有天然瓶颈 2)现有 VLM 的视觉能力更偏“静态分析”,缺乏“视觉想象—反思—修正”闭环 3)RL 的 credit assignment 很容易跑偏
3. Core Idea 1)用生成促进理解 生成模型将关键的视觉想象在图像空间显化,其作为context的重要补充,促使模型学会内化这些关键中间结果的 视觉表达 2)用 on-policy/self-sourced 数据优化自身 模型不是依赖外部教师模型不断提供off-policy数据,而是能自己产生数据、自己消费数据、并推动自身的进化。 3)用 coarse-to-fine 的方式组织这种自进化 把训练目标设计成一个从全局到局部、从静态理解到细粒度变化理解的渐进过程。第一阶段先训练模型“看全 局、找描述错误”;第二阶段再训练模型“盯局部、识别细微变化背后的操作意图”。
4. Methodology Overview: A Closed-loop Self-Evolution Framework
5. Stage 1: Caption Self-Refining 输入:原始图像 + 模型自己生成的初始 caption 输出:一组 refinement action,指出原 caption 中需要修正的内容 训练目标:最小化模型输出的修正点集合与真实修正点集合之间的差异 这一阶段强化的是:整体场景理解能力、视觉自反思能力以及对属性、文本、空间关系错误的识别能力
6. Stage 2: Visual-Operation Predicting 输入:一对高度相似、但存在细节差异的图像 输出:将原图变成目标图所对应的 visual operation instruction 训练目标:最小化模型预测的视觉操作与真实编辑指令之间的差异 这一阶段主要强化局部细节感知能力、图像差异对齐能力以及从变化反推意图的能力
7. Data Synthesis I: Image-level Reconstruction for Self-Critique 第一阶段的数据构造基于 image-level reconstruction 流程:VLM 根据原图生成初始 caption→生成模型根据 caption 重建图像→重建图与原图产生局部差异→ 利用这些差异引导模型修正 caption 关键思想:视觉到文本存在天然信息压缩,重建误差恰好暴露了 caption 中丢失或误解的视觉信息,因此 生成模型不仅是 generator,更是 critic
8. Data Synthesis II: Instance-level Reconstruction for Fine-grained Perception 第二阶段的数据构造基于 instance-level reconstruction 流程: • 利用上游 refined caption • 选择最具挑战性的 hard entity • 基于启发式规则生成 visual operation instruction • 编辑模型执行该操作,得到编辑后的图像 • 编辑指令天然成为第二阶段的 ground truth 本质上,我们把“内部理解”转化为“可观测的局部变化”,再让模型从这些变化中学习细粒度感知
9. Two-stage Reinforcement Learning Reward Design Optimization Objective
10. Experimental Analysis 我们在 7 个 benchmark 上都观察到了稳定提升: • 3B 模型:overall 从 58.7 → 60.4,平均提升 +1.7 • 7B 模型:overall 从 64.4 → 66.0,平均提升 +1.6 提升覆盖: • 单图任务:MMStar / RealWorldQA / MME-RW / CRPE • 多图任务:BLINK / Mantis • 幻觉诊断:HallusionBench 这说明 ViPER 的收益不是单一 benchmark 偶然现象,而是具有跨任务泛化性
11. Experimental Analysis The biggest gain is perceptual, not linguistic. 为了分析能力来源,我们将 MMStar 拆成 6 个子域 最显著的提升出现在 Fine-grained Perception: • 3B:48.4 → 52.8(+4.4) • 7B:55.6 → 61.6(+6.0) 同时,Coarse Perception 和 Instance Reasoning 也有稳定收益 这说明 ViPER 主要强化的是 视觉感知本身,而不是单纯的文本推理套路
12. Experimental Analysis Cold-Start V.S. Non Cold-Start? 传统 RL 往往依赖高质量 cold-start 数据 我们对比了两种设置: • SFT cold-start + two-stage RL • 无冷启动 two-stage RL 结果: • 无 cold-start 的 reward 起点更低 • 但在 约 300 steps 后追平并反超 • 最终收敛到略高的 reward 这说明在 self-bootstrapping 设定下,外部 cold-start 不一定有利,甚至 可能限制探索空间
13. Experimental Analysis Two-stage RL V.S. Mixed RL? 我们进一步比较了两种 RL 训练策略: • Two-stage RL:先 Caption Self-Refining,再 Visual- Operation Predicting • Mixed RL:两阶段数据随机混合训练 结果:Two-stage RL 在六个 domain 上都优于 Mixed RL 原因在于: • 第一阶段负责建立全局静态场景理解 • 第二阶段在此基础上强化局部细节与变化理解 这验证了我们最初的 coarse-to-fine 设计不是形式主义,而是训练上 真正有效的结构
14. verbal reasoning to visually grounded reasoning 在第一阶段后: • CoT 词云中自发出现高频视觉操作词 • 如 scan / zoom in / look closely at / focus on 在第二阶段后: • attention 更集中在关键局部区域 • 说明模型能将“视觉操作意识”转化为更精确的感知注意力 这表明 ViPER 不只是提升分数,也改变了模型的内部视觉工作流
15. Ablation Study 我们做了两组消融: • 只训练 Caption Self-Refining • 只训练 Visual-Operation Predicting each stage helps, but the full pipeline works best • 只做第一阶段:收益更均衡,更偏全局理解 • 只做第二阶段:对细粒度任务更敏感,但缺乏全局支撑 • 完整 ViPER 最优 这说明两阶段并不是可替代关系,而是一个 global-to-local 的协同演化过程
16. Conclusion & Future Work Conclusion 我们提出了 ViPER,一个面向视觉感知增强的 closed-loop self-evolution framework,核心思想是:用生成促进 理解,用自举数据驱动模型持续进化 通过 Caption Self-Refining + Visual-Operation Predicting,我们将视觉感知学习组织成一个 coarse-to-fine 的两 阶段过程 通过 image-level / instance-level reconstruction + two-stage RL,我们把生成误差转化成了感知增强的训练信号 Future Work 从单图扩展到视频、多视角、3D 与具身场景:把“变化理解”推广到更复杂的视觉时空环境 设计更直接的视觉 reward:减少对文本语义代理奖励的依赖,让 credit assignment 更直接作用于视觉表示 持续在线 self-evolution:让模型动态发现新的 hard cases,而不是停留在固定数据集上 与 latent visual reasoning 结合:探索像素空间外化推理与 latent 空间内部推理的统一框架
17. Q&A
18. 更多技术干货 欢迎关注“美团技术团队”

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-01 23:04
浙ICP备14020137号-1 $Гость$