cover_image

WWW2025 论文解读 | 京东零售广告创意:引入场域目标的创意图片生成

广告团队 京东零售技术 2025年03月14日 01:10
图片

Tech Insight

Tech Insight 栏目持续解读京东零售技术的最新技术论文和研究成果,为大家提供清晰的分析和有价值的洞见。

本文入选顶会WWW2025

京东广告团队探索使用以点击率 (CTR)为主要目标的多模态大语言模型生成广告图片,引入新颖的奖励模型和以产品为中心的偏好优化策略,在线上和离线指标上都达到了最先进的性能。
论文链接:https://arxiv.org/pdf/2502.06823
代码链接:https://github.com/Chenguoz/CAIG
00
 
摘要 
在电商平台中,广告图片对于吸引用户注意力和提高广告效果至关重要。大多数现有的方法在为商品生成背景时主要关注美学质量,这可能无法实现令人满意的在线表现。为了解决这一局限性,我们探索使用多模态大型语言模型(MLLMs)来生成广告图片,并将优化点击率(CTR)作为主要目标。首先,我们构建了针对性的预训练任务,并利用大规模的电商多模态数据集,为MLLMs提供广告图片生成任务的初始能力。为了进一步提高生成图片的CTR,我们提出了一种新颖的奖励模型,通过强化学习(RL)对预训练的MLLMs进行微调,该模型能够联合利用多模态特征并准确反映用户的点击偏好。同时,我们开发了一种以商品为中心的偏好优化策略,以确保微调后生成的背景内容与商品特征一致,从而增强广告图片的整体相关性和效果。大量实验表明,我们的方法在在线和离线指标上均达到了最先进的性能。
01
 背景及现状
 
随着图像生成技术的发展,为商品生成和谐且逼真的背景成为可能。然而,大多数现有的广告图像生成方法主要关注离线指标,如图像质量或语义一致性,而没有充分考虑视觉内容与场域目标(如点击率)之间的重要联系。这导致生成的广告图像与符合实际用户偏好的理想图像之间存在显著差异。
受最近RLHF方法的启发,我们可以训练一个奖励模型(RM),再使用强化学习(RL)算法来微调生成模型,由RM提供奖励以指导优化过程。这个流程的一个关键方面是RM能够准确反映用户对图像的点击偏好。然而,先前结合视觉内容进行点击率(CTR)预测的方法图像理解能力有限,且难以融合多模态特征(如下图所示)。
图片
此外,广告图像生成中考虑背景与商品之间的相关性至关重要。现有的强化学习算法仅专注于优化奖励值,忽视了视觉吸引力和背景相关性之间的平衡。这种疏忽可能导致背景与商品不协调,误导用户并导致糟糕的购物体验。如下图所示,虽然动态、运动风格的背景可能会提高运动鞋的点击率,但模型可能错误地将类似的背景应用于化妆品等无关商品,从而破坏视觉和谐性和商品相关性。
图片
02
 整体方案 
在本文中,我们提出了一种点击率驱动广告图像生成(CAIG)的新方法,旨在生成能够吸引用户兴趣的引人注目的广告图像,如下图所示。首先,我们在大规模多模态电商数据集上预训练多模态大语言模型(MLLM),将领域特定知识注入模型中。这为我们的提示模型(PM)和奖励模型(RM)奠定了基础。然后,我们从预训练的MLLM初始化RM,并在大量多模态在线用户点击数据上进一步训练RM,使RM能够模拟人类反馈。最后,我们引入了一个点击率驱动的偏好优化阶段,该阶段采用以商品为中心的偏好优化(PCPO)作为核心策略。该阶段利用RM的反馈对PM进行微调,最终生成既具吸引力又与商品相关的广告图像。
图片
03
 
电商知识预训练
 
为了应对高效且可扩展的广告创意生成的挑战,我们通过在大规模多模态电商数据集上进行预训练,在多模态大语言模型(MLLMs)强大功能的基础上,注入了特定于电商领域的知识。该数据集包含来自京东电商平台的120万个样本,如下表所示。具体来说,预训练任务包括三个主要任务:
(1) 图像理解:根据商品图像描述商品或背景。
(2) 多模态内容理解:根据多模态商品信息(例如标题、类别、标签)描述商品背景或生成商品标题。
(3) 提示词生成:根据多模态商品信息生成或重写提示词。
图片
04
基于MLLM的reward model
 
为了减轻不同商品类别之间CTR绝对值变化的影响,我们将CTR预测任务重新定义为图像对之间的相对比较任务。具体来说,我们从用户点击数据中构建成对的训练样本,每对样本包含同一商品的两张广告图像及其对应的CTR。对于共享商品属性的图片对(I1,I2),我们首先将商品属性与RM特定的问题模板Q_RM结合,使用提示工程函数f_instruct生成一个指令提示C_RM。然后将两张图像的视觉表征与文本表征连接起来,形成多模态输入。
图片
接下来,我们使用大语言模型(LLM)处理多模态输入,生成隐藏状态H。按照使用LLM进行序列分类的常规做法,我们利用H的最后一个token作为判别性表示,捕捉整个输入序列的上下文信息。最后我们使用一个分类头FC_cls,将最后一个token 映射到一个二维概率分布p上。此外,为了使模型能够在复合图像中对左图和右图的CTR进行精细的预测,我们引入了一个点级别的损失函数,通过一个独立的CTR回归分支来实现。最终,RM的损失函数是二元交叉熵损失和点级别损失的组合:
图片
05
 
CTR驱动优化 

为了生成高CTR广告图像的,我们将该任务形式化为一个偏好选择问题,鼓励生成模型选择更具吸引力的广告图像, 并拒绝吸引力较低的广告图像。这一过程包含两个关键步骤:(1) 生成图像对并使用RM比较它们的CTR,(2) 根据RM的反馈对生成模型进行微调,如下算法所示。

图片
为了生成广告图像,我们将PM生成的背景描述词输入Stable Diffusion,并使用ControlNet的inpaint操作来为商品生成背景。考虑到收集真实CTR反馈耗时且资源需求大,我们利用RM实时区分更具吸引力的和吸引力较低的图像,以微调生成流程。这里我们采用直接偏好优化(DPO) 作为基本策略,该过程可表示为:
图片
其中I_o和C表示商品的原始图形和对应的指令。
值得注意的是,在DPO训练过程中过度关注CTR优化可能会忽略偏好数据中的商品信息,导致生成图像中前景和背景不匹配。因此,我们引入了以商品为中心的偏好优化(PCPO)。PCPO的核心机制是在训练过程中将商品信息作为唯一变量,并构建额外的偏好数据对,从而鼓励模型生成与商品特征相匹配的背景描述。具体来说,给定一个商品图像I_o和指令C,我们构建偏好数据对 (I_o, y^+, y^-) ,其中y^+是与商品特征更匹配的背景描述,而y^-则是匹配度较低的背景描述。通过这种方式,我们确保生成的背景描述不仅吸引人,而且与商品信息一致。PCPO的目标可写作:
图片
最终,DPO和PCPO损失被用于联合优化模型。
06
 
实验结果

(1)Reward Model性能
我们在商业和公开数据集上进行了广泛的实验,将我们的方法与各种基于多模态大语言模型(MLLM)的开源和闭源模型进行了比较。如下图所示,现有的闭源模型(如GLM4V、Claude3.5 Sonnet、GPT4o和GPT4V)在比较广告图像CTR方面表现不佳,准确率接近随机水平(约50%的配对准确率),这表明这些模型尽管在通用任务上表现出色,但在广告CTR任务中并未得到专门优化。开源模型如VAM和CG4CTR虽然有所改进,但由于其视觉表示能力较弱且无法有效整合多模态信息,表现仍然有限。相比之下,我们提出的方法在商业和公开数据集上均取得了最先进的性能。
图片
(2)商品-背景相关性
为了确保公平比较,我们在CTR驱动优化过程中使用相同的RM进行CTR反馈,并且训练轮数相同,来评估PCPO与标准DPO的性能。下图展示了两种方法在训练过程中的表现。值得注意的是,标准DPO在训练5个epoch后,匹配率显著下降,从0.842降至0.597。而我们的PCPO则表现出更为平缓的下降趋势,在第5个epoch时保持了0.798的匹配率,这比标准DPO在同一阶段的表现高出33.7%。
图片
下图为我们的方案与DPO方案对比的定性分析:
图片
(3)线上实验
为了验证我们提出的CAIG方法在提高生成广告图像CTR方面的有效性,我们在推荐广告上进行了一周的在线实验。我们为44个类目的商品生成了两张图像,这些类目几乎涵盖了所有常见的商品,远超之前方法仅覆盖的五个类目。我们在下表中报告了不同方法在所有类目和五个常见类目中的结果,其中CTR的提升是相对于直接使用预训练的MLLM而言的。我们的RM在所有类目和五个常见类目中均优于之前的方法,证明了更准确的CTR预测能够驱动生成模型产生CTR更高的图像。我们还比较了仅使用DPO作为优化算法的效果,结果表明使用我们的PCPO可以使生成模型更加关注商品特征,从而提高CTR。
图片
最后,欢迎大家交流与探讨,如有任何问题或建议,请随时联系:fengwei25@jd.com
京东广告创意部门诚邀AIGC/大模型领域人才加入,共同推动技术的进步和创新。欢迎大家踊跃投递简历,期待与您在京东相遇!


推荐阅读👇

请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集
CIKM 2024 | 京东电商搜索:深度强化学习的探索与落地
ECCV 2024 | 京东零售广告创意:基于人类反馈的可信赖图像生成
图片

前沿技术应用与探索 · 目录
上一篇35W+京东商家共同选择的京点点AIGC平台,内容生成妙在哪里? | 京东零售技术实践

微信扫一扫
关注该公众号

继续滑动看下一个
京东零售技术
向上滑动看下一个