PositionIC：⾯向图像定制化的统⼀位置与身份⼀致性

如果无法正常显示，请先停止浏览器的去广告插件。

1. PositionIC: Unified Position and Identity Consistency for Image Customization PositionIC：面向图像定制化的统一位置与身份一致性

2. 动机：身份一致还不够，还要能控制位置、尺度和遮挡两个核心瓶颈 • 数据瓶颈：缺少大规模、多主体、带位置标注的数据 • 机制瓶颈：全局 attention 容易把身份特征和空间布局纠缠要解决什么？ • 现有方法更关注“生成什么” • 真实应用需要控制主体放在哪里、大小如何、谁遮挡谁 • 多主体时容易漏物、身份串扰、位置漂移 PositionIC 的目标： reference 主体像自己，并按用户指定区域出现

3. 多维过滤 Data Pipeline: BMPDS 自动合成“带位置监督”的多主体训练数据 1 单主体注入位置 • Subject200K 训练弱模型 • 分割主体并随机 shift / scale • Outpainting 生成目标图和 mask 2 正向多主体 • 单主体样本随机配对 • I2I + Outpainting 生成组合图 • 得到多主体位置标注 3 反向多主体 • LLM 写多主体描述 • Flux 生成场景图 • 检测/裁剪回参考主体主线：合成更多位置样本，再筛掉身份漂移与噪声样本 • CLIP-I / DINO 看视觉一致性 • DAM 描述细节，GPT-4o 评分 • PIC-400K → PIC-98K

4. Model Pipeline 关键直觉：每个 reference token 只看见它应该控制的目标区域输入如何组织 • 文本 token：整体语义 • 目标噪声 latent：待生成画布 • reference latent：主体身份特征 VAA 可见性注意力 • 屏蔽 reference 之间的直接注意力 • reference 只关注对应 bbox / mask • 减少身份串扰和位置漂移 VWR 处理遮挡 • 借鉴 NeRF 体渲染思想 • 重叠区域按 far / near 分配权重 • 得到更合理的 weighted mask 公式直觉：Attention = Softmax(QK^T/sqrt(d) + log M) · V，M 决定“谁能看见哪里”

5. Qualitative Evaluation subject-driven 一句话结论 • PositionIC 的优势不是单一画质，而是 identity fidelity 与 spatial control 同时提升

6. Quatatitive Evaluation DreamBench 身份一致性 • 单主体：CLIP-I 0.846，DINO 0.823，均为最高 • 多主体：CLIP-I 0.819，DINO 0.771，显著领先 • 位置控制没有牺牲主体身份保持 • VIEScore 上单、多主体全面领先其他所有 identity consistent model. 指标含义 • CLIP-I / DINO：参考主体是否一致 • CLIP-T：是否符合文本描述 • IoU / AP：是否落在目标框内 PositionIC-Bench 空间控制 • 单主体 IoU 0.828 • 多主体 mIoU 0.860 • 多主体 AP / AP50 / AP70 全部最高结论：在“身份一致性”和“位置准确性”两个维度上同时达到 SOTA

7. User study and ablation study 数据消融用户研究 • PIC-98K > PIC-400K > Subject200K • 过滤后的少量高质量数据优于未过滤大数据 • 说明 BMPDS 的筛选环节很关键• 500 张 DreamBench 结果，6 名评估者打分 • PositionIC 在一致性、细节、背景和谐等维度更优 • 数据过滤与人工判断平均一致性约 0.89 VWR 消融 • 无 VWR 时，重叠区域前后关系容易错误 • VWR 保留前景/后景关系，减少遮挡混乱 • 对多主体组合尤其重要

8. Showcases 适合场景 • 电商商品展示：多 SKU 按模板摆放 • 菜品/套餐图：多个主体组合而不串物 • 家居/故事插图：控制主体前后与遮挡

9. Showcases 适合场景 • 电商商品展示：多 SKU 按模板摆放 • 菜品/套餐图：多个主体组合而不串物 • 家居/故事插图：控制主体前后与遮挡