PositionIC:⾯向图像定制化的统⼀位置与身份⼀致性

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. PositionIC: Unified Position and Identity Consistency for Image Customization PositionIC:面向图像定制化的统一位置与身份 一致性
2. 动机:身份一致还不够,还要能控制位置、尺度和遮挡 两个核心瓶颈 • 数据瓶颈:缺少大规模、多主体、带位置标注的数据 • 机制瓶颈:全局 attention 容易把身份特征和空间布局纠缠 要解决什么? • 现有方法更关注“生成什么” • 真实应用需要控制主体放在哪里、大小如何、谁遮挡谁 • 多主体时容易漏物、身份串扰、位置漂移 PositionIC 的目标: reference 主体像自己,并按用户指定区域出现
3. 多维过滤 Data Pipeline: BMPDS 自动合成“带位置监督”的多主体训练数据 1 单主体注入位置 • Subject200K 训练弱模型 • 分割主体并随机 shift / scale • Outpainting 生成目标图和 mask 2 正向多主体 • 单主体样本随机配对 • I2I + Outpainting 生成组合 图 • 得到多主体位置标注 3 反向多主体 • LLM 写多主体描述 • Flux 生成场景图 • 检测/裁剪回参考主体 主线:合成更多位置样本,再筛掉身份漂移与噪声样本 • CLIP-I / DINO 看视觉一致性 • DAM 描述细节,GPT-4o 评分 • PIC-400K → PIC-98K
4. Model Pipeline 关键直觉:每个 reference token 只看见它应该控制的目标区域 输入如何组织 • 文本 token:整体语义 • 目标噪声 latent:待生成画布 • reference latent:主体身份特征 VAA 可见性注意力 • 屏蔽 reference 之间的直接注意力 • reference 只关注对应 bbox / mask • 减少身份串扰和位置漂移 VWR 处理遮挡 • 借鉴 NeRF 体渲染思想 • 重叠区域按 far / near 分配权重 • 得到更合理的 weighted mask 公式直觉:Attention = Softmax(QK^T/sqrt(d) + log M) · V,M 决定“谁能看见哪里”
5. Qualitative Evaluation subject-driven 一句话结论 • PositionIC 的优势不是单一画质,而是 identity fidelity 与 spatial control 同时提升
6. Quatatitive Evaluation DreamBench 身份一致性 • 单主体:CLIP-I 0.846,DINO 0.823,均为最高 • 多主体:CLIP-I 0.819,DINO 0.771,显著领先 • 位置控制没有牺牲主体身份保持 • VIEScore 上单、多主体全面领先其他所有 identity consistent model. 指标含义 • CLIP-I / DINO:参考主体是否一致 • CLIP-T:是否符合文本描述 • IoU / AP:是否落在目标框内 PositionIC-Bench 空间控制 • 单主体 IoU 0.828 • 多主体 mIoU 0.860 • 多主体 AP / AP50 / AP70 全部最高 结论:在“身份一致性”和“位置准确性”两个维度上同时达到 SOTA
7. User study and ablation study 数据消融用户研究 • PIC-98K > PIC-400K > Subject200K • 过滤后的少量高质量数据优于未过滤大数据 • 说明 BMPDS 的筛选环节很关键• 500 张 DreamBench 结果,6 名评估者打分 • PositionIC 在一致性、细节、背景和谐等维度更优 • 数据过滤与人工判断平均一致性约 0.89 VWR 消融 • 无 VWR 时,重叠区域前后关系容易错误 • VWR 保留前景/后景关系,减少遮挡混乱 • 对多主体组合尤其重要
8. Showcases 适合场景 • 电商商品展示:多 SKU 按模板 摆放 • 菜品/套餐图:多个主体组合而 不串物 • 家居/故事插图:控制主体前后 与遮挡
9. Showcases 适合场景 • 电商商品展示:多 SKU 按模板摆放 • 菜品/套餐图:多个主体组合而不串物 • 家居/故事插图:控制主体前后与遮挡

ホーム - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-20 16:47
浙ICP备14020137号-1 $お客様$