PositionIC:⾯向图像定制化的统⼀位置与身份⼀致性
如果无法正常显示,请先停止浏览器的去广告插件。
1. PositionIC: Unified Position and Identity
Consistency for Image Customization
PositionIC:面向图像定制化的统一位置与身份
一致性
2. 动机:身份一致还不够,还要能控制位置、尺度和遮挡
两个核心瓶颈
• 数据瓶颈:缺少大规模、多主体、带位置标注的数据
• 机制瓶颈:全局 attention 容易把身份特征和空间布局纠缠
要解决什么?
• 现有方法更关注“生成什么”
• 真实应用需要控制主体放在哪里、大小如何、谁遮挡谁
• 多主体时容易漏物、身份串扰、位置漂移
PositionIC 的目标:
reference 主体像自己,并按用户指定区域出现
3. 多维过滤
Data Pipeline: BMPDS
自动合成“带位置监督”的多主体训练数据
1 单主体注入位置
• Subject200K 训练弱模型
• 分割主体并随机 shift / scale
• Outpainting 生成目标图和
mask
2 正向多主体
• 单主体样本随机配对
• I2I + Outpainting 生成组合
图
• 得到多主体位置标注
3 反向多主体
• LLM 写多主体描述
• Flux 生成场景图
• 检测/裁剪回参考主体
主线:合成更多位置样本,再筛掉身份漂移与噪声样本
• CLIP-I / DINO 看视觉一致性
• DAM 描述细节,GPT-4o 评分
• PIC-400K → PIC-98K
4. Model Pipeline
关键直觉:每个 reference token 只看见它应该控制的目标区域
输入如何组织
• 文本 token:整体语义
• 目标噪声 latent:待生成画布
• reference latent:主体身份特征
VAA 可见性注意力
• 屏蔽 reference 之间的直接注意力
• reference 只关注对应 bbox / mask
• 减少身份串扰和位置漂移
VWR 处理遮挡
• 借鉴 NeRF 体渲染思想
• 重叠区域按 far / near 分配权重
• 得到更合理的 weighted mask
公式直觉:Attention = Softmax(QK^T/sqrt(d) + log M) · V,M 决定“谁能看见哪里”
5. Qualitative Evaluation
subject-driven
一句话结论
• PositionIC 的优势不是单一画质,而是 identity fidelity 与
spatial control 同时提升
6. Quatatitive Evaluation
DreamBench 身份一致性
• 单主体:CLIP-I 0.846,DINO 0.823,均为最高
• 多主体:CLIP-I 0.819,DINO 0.771,显著领先
• 位置控制没有牺牲主体身份保持
• VIEScore 上单、多主体全面领先其他所有
identity consistent model.
指标含义
• CLIP-I / DINO:参考主体是否一致
• CLIP-T:是否符合文本描述
• IoU / AP:是否落在目标框内
PositionIC-Bench 空间控制
• 单主体 IoU 0.828
• 多主体 mIoU 0.860
• 多主体 AP / AP50 / AP70 全部最高
结论:在“身份一致性”和“位置准确性”两个维度上同时达到 SOTA
7. User study and ablation study
数据消融用户研究
• PIC-98K > PIC-400K > Subject200K
• 过滤后的少量高质量数据优于未过滤大数据
• 说明 BMPDS 的筛选环节很关键• 500 张 DreamBench 结果,6 名评估者打分
• PositionIC 在一致性、细节、背景和谐等维度更优
• 数据过滤与人工判断平均一致性约 0.89
VWR 消融
• 无 VWR 时,重叠区域前后关系容易错误
• VWR 保留前景/后景关系,减少遮挡混乱
• 对多主体组合尤其重要
8. Showcases
适合场景
• 电商商品展示:多 SKU 按模板
摆放
• 菜品/套餐图:多个主体组合而
不串物
• 家居/故事插图:控制主体前后
与遮挡
9. Showcases
适合场景
• 电商商品展示:多 SKU 按模板摆放
• 菜品/套餐图:多个主体组合而不串物
• 家居/故事插图:控制主体前后与遮挡