喜马广告算法优化（六）：大语言模型在喜马广告上的探索应用

在过去的几十年里，人工智能和机器学习的快速发展改变了各个领域的技术应用和社会生活。其中，大语言模型（Large Language Models, LLMs）是近年来人工智能和自然语言处理领域的一个重要进展，使得机器能够理解和生成人类语言，以高精度和流畅性完成复杂的任务。人工智能的发展可以大致划分为四个阶段，萌芽期、积累期、快速发展期和爆发期。随着大语言模型的成熟与普及，AIGC（Artificial Intelligence Generated Content）在内容理解和生成领域也迎来了新的突破。

AIGC被认为是继专业生成内容（PGC）和用户生成内容（UGC）之后，利用人工智能技术自动生成内容的新型生产方式。随着技术的发展，如Stable Diffusion和ChatGPT等领先技术的出现，AIGC逐渐在文字、图像、音乐、视频、3D等多种形式内容的生产上发挥作用。AIGC还能更好地实现多模态融合以及跨模态的生成。这些能力使得创意工作变得更加快捷和灵活。

在传统算法策略和模型迭代过程中，AIGC也可以在搜推广等很多方向上加以运用。我们能够通过prompt抽取并利用多种特征，包括但不限于用户的点击行为、兴趣标签等，有助于理解内容语义和模型个性化。将大模型的判断过程和结构能力引入到广告素材生成中，可以帮助我们设计更加复杂和有层次感的广告文案，从而增强广告的说服力和情感感染力。 生成式AI可以节省人力，同时通过优化提高内容的吸引力。在使用的过程中，我们也需要考虑实际应用中的各种挑战。

在喜马场景下，长期以来自营广告素材过度单一，在投物料中标题和图片的重复率较高、多样性较差。尤其对于声播广告而言，复用专辑/声音名称、封面作为素材，重复率近乎达到100%。此外，喜马的广告位较多，每个位置的素材尺寸、样式差异较大，广告主既要制作出能覆盖不同尺寸样式的素材，又要保证素材的多样性以避免重复，物料制作的成本极高，经常会发生广告不能覆盖所有位置从而影响客户拿量，或者同样素材重复出现导致用户体验比较差的情况。

广告素材的重复不仅造成用户观看广告的审美疲劳，也使模型难以感知不同人群对于素材的兴趣差异，对于广告主来说面临着如何快速高效地生成大量不同广告素材的挑战。针对这些问题，我们从去年10月开始，借助大模型AIGC的能力，逐步在文本、图片、音频等多模态素材上不断进行AI创意生产的落地应用，在提高了广告物料多样性的基础上，进一步提升了广告投放效率和用户使用体验。

随着AIGC物料的丰富，广告创意候选集变多（尤其文本创意增加了5-10倍），如何将AI物料进行更好的个性化分发，以充分发挥出AI创意的潜力，又是一个新的课题。为此我们从去年12月开始，利用LLM的多模态内容理解和推理能力，在文本、图片以及广告落地页上都进行了一些探索实践，增强了对广告物料内容理解的深度。与此同时，我们通过不断迭代创意模型，以及升级在线创意优选架构，进一步提升了广告的个性化分发效果和变现效率。

喜马广告算法当前对大语言模型的应用主要集中在广告AIGC创意生成、LLM多模态内容理解、个性化创意优选和Agent智能投放等几个场景，其中前三个场景已经经过多次迭代并取得了较好的业务效果，Agent智能投放也有一些初步探索落地，这几个场景分别对应的广告业务"创意变多、预估变准、分发变好、投放变易"几个迭代方向，本次会重点分享下前三个场景的一些落地实践，Agent智能投放及更多场景的应用目前也有一些已经落地，等后面有机会再和大家分享下。

一、AIGC广告创意生产

广告创意一般由多种元素材组合而成，包括但不限于标题、图片、音频、视频等。在喜马主APP内，不同广告位所适配的广告素材尺寸就超过5种（1:1，16:9，4:3，5:1，9:16等）。

企业型客户投放广告的素材往往由代理商负责广告素材生产，优质的广告图片创意成本在100~200元之间，一名设计师一天可产出素材一般在20张以内。优质广告素材制作成本高、周期长是导致素材无法高效迭代的重要限制因素，导致在投素材高度重复，不仅会让用户产生审美疲劳，也使模型难以感知不同人群对于素材的兴趣差异。

👉文本素材生成

当前，文生文技术比较成熟，在广告素材生产上而言也更加容易。更多的工作点在于（1）如何构建与优化prompt（2）如何防止出现违规词提升结果的安全性

prompt的构建本身也可以通过LLM来生成，在常规引导词后加入对原标题的核心词提炼能够很好的抓住广告词中的卖点、受众、品牌信息

违规词可以通过两种方式来优化：软控制，加入negative-prompt来引导LLM不去生成；硬控制，在结果生成后对广告法中明确不能出现的词语、其他不合理词汇进行强过滤。

👉图片素材生成

（2）当前AIGC文生图、图生图，仅有较好的背景图生成能力，无法有效生产图像中的艺术文字

如果使用模板化的方案需要投放平台做适应性的改动，也需要客户配合将图层分离，且整体而言效果比较局限，更适用于专辑类原生广告。而对于常见的非专辑推类的广告素材，需要探索更加自动化的方案。具体方案如下：

a) 识别和规避商品区域：基于Segment Anything自动分割得到商品区域

b) 用AIGC生成新的背景图（文生图、图生图皆可）最终合并拼接

使用该方案的测试账户，结合素材优选进行流量分发，实验效果：ctr+3.4%

喜马站内存在多样化的广告投放形式，同时也需要客户拥有多种尺寸的素材储备。当素材尺寸的覆盖不足时，会直接损失对该尺寸流量位的竞价机会，影响投放效果。

尤其对于站内专辑类广告，专辑封面默认1:1方图，且客户往往缺少自己制作广告素材的能力。站内曾经的做法是通过模板化的方式为其搭配无差别背景图层来契合投放需求。但是，该背景千篇一律，极易产生审美疲劳，也无法体现不同专辑的特有元素。

👉模板分离+自动化背景生成

将广告素材模板化，品牌logo、文字前景、背景图层天然分离处理。AIGC完成对背景底图的替换，然后将品牌logo、文字前景和AI背景图合并。

该方案生图成品率会很高，并且可以基于原始广告内容生成配到的prompt进行生成引导。该方案需要广告投放平台提供系统性的模板化方案，其中，背景图层可以基于文生图、图生图等方案实现自动化生成，广告文案也可以基于LLM个性化生成。

👉图片边缘拓展

边缘拓展的方案不改变原有素材整体区域，因此相对应的可以避免上述问题。成品率与尺寸变化的大小有较大关系，当前而言1:1转16:9、9:16都有着很高的成品率。整个过程基本可以全自动化，不用人工干预。

以上，两种方案，都有一个特点就是不改变原始图片的内部结构。保留其内部艺术字、版权信息，仅利用AIGC技术将原始图片适配到不同尺寸的流量位。因此，都有着很高的成品率，审核压力较小。基于上述两种方案，我们得到的实验结果显示效果类广告整体ctr+3.5%

在上述方法的共同作用下，基于AIGC自动化生产物料让喜马拉雅自营广告素材量增加五倍，单张生产成本仅需至0.2元，在素材优选的的作用下累计带来超过5%的消耗增长。

二、多模态内容理解

1. 广告内容理解作为整个广告推荐链路的基础依赖，应用于广告推荐模型、广告创意生成、优选、广告投放等多个业务，在喜马广告系统中，扮演着重要角色。

3. 常见广告的内容信息包括了：标题、图片、落地页、音频、视频等多种形式。如何更加精细化、细粒度的构建多模态内容标签体系和是目前广告算法团队的核心工作之一。随着生成式大模型的崛起，利用大模型进行多模态内容理解，显著的提升了生产效率和标签准确性。

1. 结合当前的整个广告数据链路，我们逐步构建了一套精细化的语义理解系统，从底层数据的接入预处理，到系统调度存储，再到上层的各种语义理解算法能力，最终服务于广告的多个业务。目前广告内容理解核心提供了两大类AI理解能力：

a. 广告创意理解：理解广告创意内容，如创意基础属性、营销卖点、创意元素（人物、品牌、商品）关键词等，其中又会分文本创意、图片创意以及音/视频创意等

b. 广告落地页理解：理解落地页内容，如落地页屏数、落地页元素（表单、按钮、品牌、售价、人物、转化流程、卖点等）

👉基于LLM的广告文本语义理解

1. 广告的文案创意是广告主向目标受众传达广告意图的重要载体，对于吸引目标用户点击广告有着重要的作用，下面是几种喜马常见图文的广告位：

a. 在生成式大语言模型出现之前，识别和理解文本中的实体、关键词、目标人群，需求类别，我们使用了多个专有任务的NLP模型，生产效率低且准确性不高。相比针对每个标签从头开发单独的识别模型，基于LLM的方案将单个标签的生产时间缩短到两天。

b. 提示词工程：使用CO-STAR框架进行prompt开发，保证prompt清晰准确，易于维护管理

👉基于LLM的广告图片语义理解

1. 广告图片对于向用户传达广告意图从而吸引目标用户点击广告有着重要的作用，是广告内容理解的核心部分，图片中可以识别的元素包括：商品标题、卖点、商品属性、品牌Logo、人物、背景等。

a. 在大模型之前，理解并识别图片核心元素，需要使用多个环节和模型，比如：图像分割，图像检测，图像分类等，识别图片中的文字信息还需要OCR识别模型。随着大模型支持了多模态的推理能力，我们开始逐渐升级为基于大模型的识别方案，显著地提高了标签提取效率和准确性。

广告创意图片	核心内容	卖点	人物类别	OCR关键词	OCR关键数字词
	高薪招聘,外卖员，电动车	月薪高，五险一金	男性外卖员	高薪，招聘，福利多多	8000
	卡通形象,数字化,广告,在线服务,蓝色调	智能搜索,一站式服务	卡通人物	驾校,报名,考试,下载,精选,500	500题
	卧室,台灯,窗帘,夜晚	舒适,优惠	没有人物	预订,低至,旅行,同床异价	5折

a. 广告图片理解提取的语义标签应用在广告CTR模型中，离线auc指标1.2个百分点的提升

👉基于LLM的落地页语义理解

1. 广告落地页：用户点击广告后进入的页面，用于引导用户发生特定转化（提交表单、加微、付费等），它通常包含广告内容、引导语、表单等元素。

2. 广告落地页中包含了更详细的广告信息，是用户是否发生转化的关键环节如何更好的理解落地页内容，对于模型准确预估广告CVR非常重要

a. 在大语言模型之前，我们使用了网页爬虫技术，爬取落地页中的核心元素：表单、按钮、图片、文字等信息，再基于图片和文本小模型提取标签，这种方式在以下问题：

b. 现在我们模拟手机长截图功能，直接将落地页截成一张长图片，通过定制prompt，让大模型提取核心标签，除了爬虫阶段已有的标签，还新增了：目标受众、关键词、广告售价、广告品牌、人物信息、转化流程等语义理解标签。

a. 广告落地页理解提取的语义标签应用在广告CVR模型中，离线auc指标1.3个千分点的提升

通过LLM对文本、图片、落地页等多模态内容进行理解，我们提取了30+语义标签，应用到核心预估模型中，有效的提升模型预估能力，累计带来超过7%的消耗增长

三、创意优选

AIGC有着高效的素材制作能力，在兼顾效率的同时也能保证较高的成品率。但是，我们应该如何衡量一个广告素材的好坏，并为每一个客户分发其最喜欢的素材呢？

广告创意的好坏不能单靠审核同学的主观意愿来评价，需要客观的统计数据来佐证。萝卜青菜各有所爱，同一广告的不同素材，会适合不同的人群，增加创意优选模块主要为了解决上述问题。实践中，喜马广告场景下的创意优选模块经历了四个发展阶段。

阶段一：优选后置与UCB策略

首版功能设计时，主要面临计算性能和数据冷启两个方面的难点

a) 计算性能：随着粗精排大模型的上线，广告排序的性能压力已趋于瓶颈。当素材大幅度增多，单纯的依靠粗排、精排来进行素材挑选系统将会不堪重负。需要有一个轻量级的创意优选模块，才能更好的支持和兼容长期的策略优化。

b) 数据冷启：AI素材的出现会大幅度膨胀我们现有的素材库，但由于物料数提升较多，需要有高效的E&E能力，才能使模型样本既能够快速积累，也能尽量不影响系统的效率。

a) 综合上线初期系统的稳定性因素，选择创意优选后置：在竞价链路中，为了保证整体链路性能稳定，不能够将所有素材全部进行精排。因此，有两种思路存在，即粗排前做素材优选或精排后做素材优选。

b)考虑新素材快速度过冷启动阶段，采用流量探索&利用机制：

经过第一阶段的EE策略，已经积累了少量的优选样本，此外，简单的策略很快就触达了系统瓶颈。因此，在第二阶段，将采用模型替代UCB策略进行创意的优选分发。

前期的优选模块后置于精排，在精排选出最佳的一条广告后，针对该条广告优选出最佳的原始物料或者创意物料。因此，该阶段中的优选模型不影响实际出的广告，只会影响广告的物料素材样式。基于这些特点，在建模上需要考虑如下两个方面的问题来做相应的适配：

a) 计算性能：上文提及，计算性能是创意优选环节的重要瓶颈。除了策略设计以外，模型的设计也要尽量满足效果&性能的双重要求。

b) 特征选择：创意优选模型的核心功能，是在一个创意组内，选择最适合该用户的素材。因此，衡量创意组中不同素材的画像特征会少的多。需要突出素材类特征的重要程度，如标题、图片、内容理解特征等。

a) 单塔结构：创意优选延长了广告推理链路，从性能角度考虑无法沿用基线大模型的大量特征与复杂结构。且对单创意组中的不同物料进行排序时，广告位、转化目标等特征并无差异性，排序的准确性相比预估的pcoc更高，可以用单塔结构代替多任务模型，减少模型参数量，进而提升推理速度。

b) 重点使用泛化类特征：创意优选模型的主要功能并非物料间的排序，而是同创意组内的优选，因此过于细致的ID类特征对最终效果并无收益，且AI创意缺少历史样本，因此主要采用偏泛化类特征。

c) 创意特征做充分交叉：在该场景下物料title是区分AI创意与原始创意的核心要素，因此将该画像与其他画像充分生成交叉特征并使用。

阶段一、二阶段的升级总共带来喜马自营效果广告收入+2.7%，ecpm +2.8%

在经过前期的样本积累后，创意样本量的稀疏性基本得到缓解，已经不是优化时需要考虑的重点。同时，新的问题开始出现。

a）链路上游的特征一致性问题：当曝光的是创意物料时，精排预估所采用的物料维度的特征不是实际展示的物料信息，如物料id，物料文本切词等；

b）创意优选模型对优选广告没有影响，对系统的优化效果被制约：对于每个请求，创意优选覆盖范围较小，只能对精排选出的那一条或几条广告进行创意上的优选。

因此在后期优化中我们将创意优选模型前置到精排前，粗排后，扩大创意优选对广告系统的影响范围，充分发挥创意优选的价值；同时，可以解决精排阶段遇到的特征不一致问题。此外，前置后，单条请求需要预估的物料数会突增，这会带来相应的性能问题，因此，我们同步将模型结构升级为双塔dssm模型，降低在线计算压力。

创意优选模型从精排后前置到精排前，粗排后，链路变化如下图。

升级前，创意优选模型使用了用户侧、广告侧以及两者的交叉特征实时在线计算不同创意物料的点击率；升级后，创意优选模型采用的是用户侧和广告侧特征并分别在各自的特征上建立DNN网络结构。两个网络输出对应embedding向量，做内积后得到最终的创意物料的ctr预估值。由于前置后，只是增加了待预估的广告条数，因此线上实际计算量大大降低。

上文，我们介绍了如何对大量的AIGC创意进行优选分发，以此提升投放效果。但是，实际应用中还存在着如下问题：

a) AIGC素材可以源源不断生产，大量AIGC素材出现会导致冷启流量不够分、系统存储压力大。如何合理控制生产速度，并增加淘汰机制

b) 基于不同的技术方案、prompt我们可以拥有多样的AIGC素材类型、风格。不同版本的AIGC素材需要可管理、可AB、可迭代。

a) 构建素材管理中心，对素材进行统一管理与去重（不再by物料上传）

b) 对不同风格不同版本的AIGC素材进行类型标记，可以丰富模型特征并在后续策略中应用，举例：{素材类型：文本/图片/视频}_{生产工具：gpt/sd/dalle}_{样式风格：style}_{version}

创意优选模块通过上述多期的迭代，使得喜马广告得到了显著的优化。线上支持预估物料数提升五倍，带动大盘收入提升5.8%，ecpm提升6%。同时，在性能方面，链路99分位耗时3.13毫秒，对广告系统整体性能几乎无影响。

总结展望

最近一年随着喜马广告与大语言模型结合的项目不断落地，AI素材的占比在不断提升，物料本身的理解和泛化能力也越发重要，给广告分发效率也带来了更多的机会和挑战。目前虽然在广告创意生产、多模态内容理解、个性化创意分发等场景取得了一定的效果，但还远远没有把大模型+广告的潜力充分挖掘出来，未来仍有很多可以进一步探索的地方，比如：1）广告多模态内容的联合表征学习；2）全链路生成式广告优选；3）LLM的理解推理能力和新广告、新用户的结合；4）基于LLM的序列推理和生成式召回等等。前路漫漫亦灿灿，期待后续更多的积累和分享。

喜马广告算法优化（六）：大语言模型在喜马广告上的探索应用

背景

一、AIGC广告创意生产

AIGC图文素材生产

👉文本素材生成

👉图片素材生成

图片物料自适应拓展

👉模板分离+自动化背景生成

👉图片边缘拓展

二、多模态内容理解

业务现状

系统架构

技术解析

👉基于LLM的广告文本语义理解

👉基于LLM的广告图片语义理解

👉基于LLM的落地页语义理解

三、创意优选

阶段一：优选后置与UCB策略

阶段二：升级模型优选

阶段三：模型前置并升级双塔模型

阶段四：AIGC素材迭代升级

总结展望

首页大图	首页猜你喜欢	中插大图