小红书作为一个集内容分享、社区互动与电商购物于一体的平台,其搜索功能已成为人们获取信息、做出消费决策的重要渠道。随着用户需求的多样化和广告物料的快速增长,小红书搜索广告召回系统面临着业务与技术上的多重挑战。
本文深入探讨了小红书在业务增长阶段的搜索广告召回实践与思考,通过召回水位分析与策略演进,介绍了如何通过构建数据循环、优化复杂召回模型等技术手段,在保证用户体验的同时实现广告的高效分发。
此外,大模型技术的应用,如复杂查询常识推理、大模型表征等,也为召回系统带来了新的突破。在大模型时代,搜索技术栈的变革将不可避免,小红书搜索广告召回协同算力引擎团队已经为未来做好了准备。
小红书是一个集高质量内容分享、多元有趣的社区氛围、从种草到电商购物于一体的平台,已经成为许多年轻消费者的“生活百科全书”和“消费决策入口”。其内置搜索入口是一个通用搜索引擎,接纳用户各种各样的搜索词查询,对相关性、内容质量、用户体验上有着很高的要求。在小红书的搜索商业化中,商业化不作为对用户体验与内容质量的消耗,而是基于对用户生活需求的理解与商家营销诉求的满足与匹配,通过用户和商家的良好体验促进供需持续增长,长期带动平台营收水涨船高。
作为搜索商业化召回团队,召回阶段是在链路最上游,从庞大广告候选池中为用户搜索找到一批最相关、分配效率最高的广告集合,通过解决用户查询的关键词与广告物料之间的检索、改写、扩展、推词几个技术问题,解决快速增长的用户搜索意图与广告主营销意图间的供需匹配问题,提高商业化内容的分发质量与变现效率,平衡广告主在竞价环境下的投放可控性与公平性。
小红书搜索广告召回的业务特点主要体现在以下三个方面:
『强语义约束』小红书搜索是一个通用搜索引擎,非常注重对用户查询与内容的自然语言理解,在广告召回过程中严格约束语义相关性与用户体验;
『物料高速增长』小红书搜索广告现阶段的物料规模快速增长,对新且优质物料的召回有时效性与覆盖率的要求,并匹配后链路的排序与机制变化,保持在增长阶段对召回供给的业务敏锐度;
『多种投放目标并存』小红书搜索广告中点击、成交、线索留资等多种投放目标的广告计划并存,对召回来说难以静态的描述广告价值,召回要在语义与体验约束下优化为广告主交付的转化目标,最大化平台的分配效率。
牵引召回迭代的水位指标
根据小红书搜索广告的物料快速增长的特点,我们清晰定义了召回的目标和水位,哪里有召回效果、马太效应状态一览无余:
怎么观测召回的水位与效果空间:为了解耦库存增长与其他排序阶段,独立观测召回算法能力的水位状态,我们核心关注的是『应召尽召』、『噪声纠偏』与『即投即召』三个方面
『应召尽召』:将有商业价值流量拆分为头/腰/尾三段,头部泛需求流量上符合相关性广告的物料供给充足,我们重点关注效果类指标,强化高价值广告的数据循环;腰部尾部上因为查询词比较具体精确,能够满足高相关性的物料相比头部流量大幅减少,对于精确意图搜索相关性是强约束,重点关注对这部分高相关物料的召回是否充分;
『噪声纠偏』:在广告系统稳定投放的数据循环未充分建立阶段,只应召尽召仍存在问题,召回不准确会为下游面向概率模型引入无法分辨的噪声,降低整个广告系统的分配效率,因此越是在后链路模型的发展阶段,越需要在召回环节关注 Badcase,尤其是这些 Badcase中没有被过滤、并且被粗排选中的那部分将直接影响精排的参竞数量,需要在粗排之前的召回环节做更多选择偏差纠偏;
『即投即召』:快速增长的用户搜索意图与广告主营销意图间的供需匹配问题,让系统需要有快速的冷启能力,同时面向新品的种草广告、直播广告也有很强的时效要求,需要保障新广告的召回冷启速度不低于素材测款的生命周期,让广告主"投放即可快速启量,提价即可快速放量",我们重点关注符合相关性的新广告被召回的冷启成功率与冷启延迟;
『召回水位看板』:通过以上定义我们得到了一个简洁且信息丰富的召回水位看板。通过按频率分层采样 Query 和全量库存进行离线相关性评分,我们可以计算在不同 Query 下,高相关库存与实际召回的覆盖率、召回结果中不满足相关性的噪声占比、库存与实际召回 K 个的 PVR 之间的水位差,以及冷启动库存的召回成功率。这使我们可以清晰地衡量召回算法的提效空间是在物料库存上还是召回能力上,离理想状态还有多少水位差,以及是否公平地召回了高相关库存,而不是集中在马太效应最强的高热广告上。通过以上召回指标分析,我们确定了腰尾部 Query 上补充高相关性广告、头部 Query 上集中高价值广告的提效目标。
(以上数字仅供举例帮助理解,
非小红书真实数据)
语义与效率在物料增长期的定位
召回对广告系统的影响主要来自三个方面,首先是面向体验的语义目标,其职责是在不考虑出价和期望点击率的情况下,只针对相关性从高到低进行召回,为粗排和精排阶段提前排除不相关广告,从而减少打分误差;其次是面向平台商业化的分配效率目标,随着符合相关性的广告远高于召回 Quota,在泛意图上语义从优化目标变为约束项,需要兼顾面向个性化与平台效率做优中选优,在召回阶段提前排除出价能力不足、难以带来点击与转化的低价值广告候选,以提高拍卖阶段的竞价强度与流量变现效率;最后是面向竞价生态的探索目标,需要具备发现一批与用户搜索意图语义相符但尚未被大量用户点击的潜力广告的能力。尤其在物料快速增长期,多样的召回策略对于创造一个开放的广告竞价博弈环境尤为重要。
『语义探索』与『效率承接』:小红书搜索广告客户快速增长,新广告候选池快速膨胀,如果都采用新广告扶持策略,成本将会比较高昂;另外转化类报价广告占主导情况下,广告报价这个影响排序的因素也与广告系统自身强耦合,这可能让系统更容易陷入马太效应。为了解决以上问题,我们的解决方案是构建一个数据循环,在语义召回中,在广泛的腰尾部流量上不考虑效率因素让相关性符合的广告候选优先被召回,进行用户反馈信号探索与积累;在面向点击与转化的效率模型中,以最大化平台分配价值为目标,在泛需求搜索的头部流量上强化个性化、高价值广告与高链路通过率广告的数据循环。这样,快速膨胀的新广告无需长期扶持占用参竞配额也可以在腰尾部沉淀数据,在增长期的广告系统链路中,我们尽量避免长期预留扶持 quota 、扶持系数等限制竞争因素,以追求召回相关性与效率的平衡;
『语义与效率-帕累托曲面』:语义与效率-帕累托曲面 是指在语义与效率两个优化目标的情况下,找到一组满足所有目标约束下的最优候选集合。如图中,在帕累托曲面上的广告就是我们要召回的结果,过滤低于相关性红线标准的广告,并在泛意图搜索上过滤低转化低出价的广告,来分别兜底体验红线与探索线。系统层面上我们设计了区分泛意图与精准意图差异性的多目标融合与截断策略,腰尾部精准意图流量上压缩效率召回通道的 quota 配比并配合高相关性广告回捞策略,引导高相关性但低价值的广告在腰尾部流量上积累反馈数据,主动改变曝光分布,带动整个广告系统向 Better Distribution 而非马太效应的方向优化;
兵无常势,水无常形
不同于成熟期业务的精细化效果迭代,小红书的搜索广告仍处在业务增长期,尤其需要在增长爆发点上顺势而为,用合适的技术选型匹配物料规模与发展阶段,灵活机动的敏捷迭代产出更多业务收益,以下是我们的一些面向增长期业务的迭代思路;
『趋势价值』:一些原本无效的策略,可能会随着业务发展阶段的变化而产生显著效果,这要求我们以趋势为导向来看待问题,保留长期的 AB 实验,通过数据驱动的方式捕捉形势变化,并及时进行价值的重新评估。比如,在召回初期引入过多电商广告库存,会降低参竞队列的平均出价,从而产生负面的大盘效果,但随着电商广告出价能力的持续提升,出价水位劣势的问题消失,再引入全量电商库存甚至带来正向的大盘效果;
『在时域维度上优化』:日常迭代优化主要集中在 AB 视角,与此同时不能忽视时域上的优化机会,比如,在 618 、双 11 的电商爆点时间窗口强化商品种草类的召回策略,在五一、十一的旅游爆点时间窗口强化出行类的召回策略,为技术迭代提供一个强力杠杆放大平台收入;
『渐进式重构』:业务问题驱动,先用简单方案快速拿到大部分收益,再随着业务发展与技术基建升级,将模型能力与技术体系向理想态、向前沿逐步迭代;比如,技术方案上在召回初期优先以字面规则、白名单回捞与黑名单过滤策略,快速解决召回去粗取精问题与链路堵点,然后再使用模型来解决深层语义匹配问题;另外,随着后链路粗排、精排、相关性的能力变化,召回的效果空间也从对召回结果的噪声纠偏,转向填充不足与后链路误过滤过多,策略也从保准确率转向召回率与保送策略。
算法与算力协同、
模型性能与效果双优化
召回模型的独特之处在于,在响应时间有严格限制的情况下,优化检索模型的性能。因此需要与工程引擎紧密协作,联合优化算力与算法,以提升模型分布式训练速度、索引的检索效率和实时性;与此同时,LLM 技术基建下,高性能 GPU 序列算子、推理低成本化成为技术红利,让我们有了渐进式跃迁技术栈的机会,让大模型为广告系统引入更多基于知识推理、图片美学风格的可解释性信息,生成式检索与大模型表征为召回带来 Scaling Law 的想象力;在大模型时代与算力引擎团队合作共赢,为后续的技术迭代创造更好的算力优化支持与合作氛围。
以下列举小红书搜索广告召回技术在不同发展阶段下的提效思路与技术演进;
一阶段 『广告主自主表达投放意愿』:业务发展初期,品牌广告占主导地位,与 query 匹配的物料相对较少,这个阶段主要依赖广告主大量自主购买关键词来实现高度可控、高解释性的商业流量获取。第一版召回通道重点发力 Query 改写+倒排海选的两段式召回,构建买词 Bidword 的广告倒排索引召回,并通过 query 语义扩展提供宽泛匹配更多 Bidword 的扩量能力,这构成了小红书搜索广告系统的基石;
二阶段 『解耦买词关系』:随着中小商家的进入,召回能力越来越受到中小广告主买词能力不足的限制,因此需要突破对广告主自主买词的强依赖,填充商业化洼地、增加竞价深度,从用户搜索行为直接到广告召回的能力走到台前;
这个阶段引入以相关性检索为目标、以 Bert 为模型底座的向量模型,将 Query 与笔记映射到同一个语义超球面上,在较少的广告池上全库矩阵乘计算召回分,补充相关性符合但广告主没有买到相关词的有效物料,拉动参竞填充率与 PVR 的一波增量;
优化推词能力,既要把广告主营销诉求准确反映到有商业价值的词上,也要提高推词的拿量效率,主动创造 Query 改写与 Ad 推词的供给匹配关系;
三阶段 『多目标召回』:随着满足各行业搜索相关性的物料充足,尤其是使用转化类出价的广告主增多(线索类、电商类),满足语义约束的广告候选数量远超召回 quota ,因此需要从语义匹配的广告集合中优选出具有高点击率(CTR)和高有效千次展示成本(ECPM)的广告,以追求高相关性、高转化率和高价值的召回丰富供给,加速优质广告的数据循环建立。同时,随着转化类报价类型广告的预算增长,面向流量最终高转化价值的转化率(CTCVR)召回也带来了新的召回增量;
将以相关性为单一召回目标,扩展为以相关性、点击转化、高参竞价值三方面的召回目标,并设计为两类召回通道:语义模型承接中长尾精确意图Query与冷启物料召回,效率模型承接面向重定向、后链路通过率与平台营收效率;同时效率模型需要有较短的模型切换间隔,更快的捕获最近数据分布变化,我们将召回模型与索引逐渐从每日训练切换提升到一日多切;
效率模型既包括面向最终流量价值的 ecpm 与 ctcvr ,也面向广告系统内不同阶段的排序与策略偏好做纠偏,如对相关性准入规则、多阶段排序通过率的偏差进行修正,在面向高转化的召回通道引入 ctcvr * cpa 的方式近似高 ecpm 召回,提高广告系统漏斗的多阶段分配一致性;
根据不同库存物料与后链路模型能力发展阶段,完成多目标多模型 ensemble 扩展召回增量;同时,不同行业下的符合投放标准的物料数量差异较大,统一设置全局静态召回 quota 会导致在 quota 不够时召回不充分、在 quota 过剩时为下游判别模型引入无法分辨的噪声,通过调节分搜索频率、分行业、分物料冷热的结构性召回 quota 与阈值截断策略,解决多路多目标召回通道合并问题;
四阶段 『强化检索模型与索引』:随着物料数量的快速爬坡,召回候选规模的增大使当时的检索模型存在严重的选择偏差问题,无法对尾部和未见过广告做出可靠排序,导致召回了一些 Badcase;
通过全空间偏序关系建模、大规模负采样等对样本选择偏差的纠偏,与对检索模型对比学习质量的提升,尤其在面向效率召回模型上个性化建模上,带来了显著效果提升,在后文将详细展开介绍这部分内容;
随着需要解决的供需匹配问题(尤其在深层转化目标任务)上越来越复杂,向量内积模型的拟合能力临近天花板、提效边际收益收缩,为了打开向量内积模型缺乏信息交互对表达能力的限制,我们将召回基座模型从双塔升级为多层 MLP 与 Target Attention,配合 HNSW 层次索引,用较少次打分等效逼近全库检索的召回能力,打破原有向量模型天花板,让模型迭代进入新的阶段;
倒排索引也可以吸收向量检索模型的轻巧计算优势,通过对语义向量的量化,在存储与计算消耗极小的情况下,实现倒排索引通道相关性符合物料召回覆盖率的大幅提升;
五阶段 『AIGX时代 搜索范式革命』:大模型在自回归+指令对齐的方案突破了监督学习时代的许多认知,让算法拥有了推理、多模态理解与 Scaling Law 的突出能力。在搜索与广告产业上,最直接面临大模型对搜索形态的颠覆,应用大模型技术是在守住搜索业务未来市场份额的生命线,我们已经看到了日新月异的前沿工作,我们也做了一些有效果的尝试;
常识推理补全 Query 搜索意图:将大模型语义扩展与标注能力应用于『改写(Rewrite)』任务中,借助CoT能力对复杂查询词做意图精确理解,并做语义关联扩展释放增量需求,如 对地点常识信息扩展周边游的POI信息、根据儿童年龄关联不同阶段的教育培训需求;
广告主核心卖点提取:一部分小红书的商业笔记隐性的进行产品或服务的推广,广告意图的表达更加含蓄隐晦,通过对大模型的指令调整,能从软文描述、图像模态中剥离无关噪声的抽取营销卖点、结构化产品描述,通过大模型『推词(Suggestion)』帮助广告主更准确触达相关搜索意图,并将抽取的信息应用于检索模型的特征输入与长尾语义样本合成;
将大模型作为更好的编码器:表征编码器从 Bert 换成大模型后,输入与输出从结构化特征,变为自由格式、无结构甚至自然语言描述,同时能让向量检索性能在模型参数量与数据规模上符合 Scaling Law,这场表征革命非常让人振奋;我们通过 Prompt 与参数高效(Parameter-Efficient)的微调与对齐,将面向深层语义的 LLM 对齐到小红书内用户行为兴趣空间与广告相关性标准,成为一个与行为偏好对齐的营销内容编码器,通过 Semantic ID 与 I2I 扩展方法,增强在长尾 Query 、低频物料上的语义检索效果;
在最近一年,我们在第四、第五阶段持续迭代,累计做了五期 Launch,为营收效率累计贡献 CPM1+5%,效率通道可覆盖线上 80% 点击、60% 转化;接下来的章节将介绍第四、第五阶段上我们所做的实践、踩坑经验与背后的思考。
检索技术可以被应用在 文字检索文字、行为检索行为、文字检索图像、图像检索图像 的任意模态间的关系建模,可以监督学习用于特定检索任务,也可以自监督挖掘深层语义关联,同时在大模型技术落地过程中,RAG 检索结果的质量直接影响了大模型的知识幻觉与过时问题能否被缓解,其中召回检索技术起到了非常重要的作用。因此有一套检索算法技术底座对召回长期高效迭代非常重要。
为了确定召回技术方案选型,我们遵循以下几个本质问题出发:
『算力即生产力』:召回模型上 GPU 集群,是做复杂召回模型的必要前提,我们需要一个模型检索能力上限高、统一维护的高性能检索框架,在 GPU 紧张的当下使用市面上 A10、T4、L40s、L20 各型号显卡,一方面提高模型训练的迭代效率、提高模型训练时效性、降低检索模型打分耗时、提高候选打分规模;另一方面和工程引擎团队合作,为后续大模型的微调与推理技术迭代创造更好的合作基础;
『解放召回模型上限』:随着需要解决的供需匹配问题越来越复杂(如深度转化目标),受 SL2G 与二向箔工作的启发,我们发现使用多层 MLP 与 Target Attention 替代内积距离度量在深层转化目标任务上可以大幅提高模型召回率,并且仍保持不错的距离度量性质。
无论是基于 BERT 还是 DNN 的召回模型,双塔范式在计算和存储效率上仍具有优势,然而双塔模型的距离度量方法则很大程度上影响模型的拟合能力上限,例如,一词多义、多兴趣的问题在内积度量中通常通过多向量(如 MIND、MVKE)解决,且内积度量存在表征空间各向异性引起的问题;而一个浅层 DNN 的非线性距离度量、和引入双侧特征间 Target Attention 可以使模型在早期阶段就进行双侧信息交互,逼近一个全特征交叉的拟合能力,从而更好地解决消歧问题和稀疏数据的距离计算问题。同时,Attention 能力也让召回环节对语义序列与前置行为更加敏感,从而极大的打开了召回模型的效果天花板。
『专注核心优化点』:学术界与业界优秀的检索提效方法众多,经过我们的实践,有些是小红书目前发展阶段与物料结构下召回要解决的核心优化点带来了明显的收益,有些是相对而言在我们场景下收益不明显,定义为边际优化点。从我们的实践来看,核心优化点与边际优化点列举如下:
偏序样本与纠偏
样本选择偏差会导致广告系统过度偏向于某些特定的广告,如流行度偏差导致模型偏向于流行度较高的样本,或在模型没见过的样本上表现出很大的随机性,从而影响广告的曝光机会和广告效果,因此如何通过采样与样本构造进行模型纠偏成为重要迭代方向。
全空间偏序关系:只从全样本空间内随机负采样会缺少对漏斗选择偏序的刻画,我们负采样策略为带难负样本的 batch 内负采样,样本组织从全样本空间 shuffle 变为 request 粒度 shuffle、同 request下参竞广告在样本中连续组织,使 全局负样本和参竞难负样本 在同一 batch 内同时有机会被采样并复用计算结果,既全局负采样也兼顾流行度负采样,通过面向序的 Listwise Loss 让模型捕获 随机<过滤<参竞<点击 的全空间偏序关系,将建模目标从点击量期望向点击率与后链路通过率期望修正;
警惕 Batch Norm:在BYOL等自监督任务中 Batch Norm 被证明至关重要,但在正负例混合输入的 Pairwise/Listwise 任务中,要警惕 BN 的信息泄露问题,无论是特征层面的还是交互层,BN都会产生的隐患;
难负样本比例:选用过难的负样本会导致效果下降甚至模型直接过拟合,我们选用后链路参竞广告分段采样作为难负样本,即包含精排排名靠后的广告、与被相关性准入策略过滤掉的广告,其难负样本比例被经验性的控制为负样本的 1%;
对比学习中关于负样本难度和作用研究中,证明了负样本中 5% 的决策边界样本最有用,其中最难的0.1%甚至有害(https://arxiv.org/abs/2010.06682),在我们实践中也出现引入过多难负样本导致的检索效果下降问题;
多阶段学习:为了同时优化选择偏差纠正和决策边界,一些课程学习训练方案会在第一阶段进行简单负样本的训练,然后在第二阶段使用难负样本进行triplet训练。在我们的实践中,这种方法的效果与在一次训练中直接混合难负样本同时训练的方法相近,并且多阶段训练增加了迭代的复杂性,因此我们最终没有采用这种方案。
更多的负采样:人们一致认为对比学习受益于更大规模的负采样,负采样越多对负采样的质量依赖越小,沿着这个思路,我们将负采样规模做了大幅扩展(内积距离度量模型扩展到千,Attention+MLP 复杂距离度量模型受制于训练速度扩展到 128),同时承担负采样候选的 batch size 也做了放大,让负采样候选空间达到万量级,减少采样碰撞几率;扩充负样本同时带来训练速度衰减,但我们通过优化 in-batch 分块负采样算子,大幅提高了训练效率,这使得在负采样规模翻倍的情况下,计算训练速度不降反升;
Cross-batch:在我们的数据集中,采用万级候选的in-batch负采样在训练速度和效果上表现良好,考虑到queue缓存引入的新超参数与开发的复杂性不利于快速迭代,我们并未采用queue缓存、跨batch等方法来进一步扩大负采样候选集的规模;
动态负采样比率:半定量的理论框架研究了InfoNCE在不同任务中最优的负样本数量问题(https://arxiv.org/abs/2105.13003);
正样本增强:现有的反馈数据在长尾流量上较为稀疏,使得后验模型在长尾上的学习并不充分,而长尾流量又是召回提升 PVR 的主要战场,我们采用规则挖掘与大模型数据合成的方法,从文字常识推理(参考Piccolo2 https://arxiv.org/abs/2405.06932)与图生文任务(参考BLIP https://arxiv.org/abs/2201.12086)中,为广告物料合成一批语义相符的长尾Query。
自监督任务:为了进一步增强模型对小红书场景内深层语义的理解能力,将长尾 Query 映射到同义的头腰部 Query 上、将长尾广告映射到相似的头腰部广告上,提高改写与语义检索效果,我们在基于 Mask 完形填空的 Bert 预训练范式基础上,引入对比学习自监督任务。具体来说,通过对 Query 与广告文字描述的元素替换、噪声注入、编码器 Dropout 策略构造两个副本,使得这两个副本在表征空间中靠近,而与其他表征远离;类似的将自监督方法应用于行为序列,Mask 部分行为信息,提高用户侧短期与长期兴趣表征提取的鲁棒性(参考Bert4Rec https://arxiv.org/abs/1904.06690);
全域学习:用自然搜索的用户反馈行为补充到广告召回是一个常用做法,小红书社区与商业化虽然共享同一套笔记池,但社区重生态治理、商业化重营销价值,二者曝光结构差异较大,使得在小红书搜索广告引入用户全域反馈行为作为正样本效果不理想;与此同时不直接作为正样本而作为信息补充,将社区曝光结果的语义与风格信息,通过多模态语义表征 I2I 扩展方式引入到广告召回中,取得了一定的收益;
特征与序列建模:
记忆型 ID 与迁移学习:在面向效率目标的模型上丰富不同粒度 ID 特征之后,模型的个性化能力得到了显著提升;在面向语义的 Bert 模型原始文本输入基础上,补充更多结构化特征,如预测类目、质量分等,对语义模型的召回率也有明显提升;与此同时,在广告召回模型特征层迁移引入在社区场景下训练好的 categorical/id embedding,经过验证,迁移表征的做法对召回的集合序建模来说效果增益较小,考虑到引入外部数据依赖后也不利于快速迭代,最终仅在面向转化目标的模型上应用了迁移学习;
行为序列特征:行为序列从高维兴趣的角度,引入了对用户偏好、习惯的隐式刻画,尤其在推荐引导搜索『推后搜』的场景中,用户在小红书社区推荐里的行为可以有效补充搜索意图,在召回任务上带来显著的效果提升;
TopK 选择问题:召回有效库存的同时,也要减少召回让下游无法分辨的噪声,因此存在topK与阈值截断问题
不同召回通道共现独特性分析与增量价值度量,跟踪不同召回策略带来召回增量与噪声、后链路通过率与 quota 使用率,作为迭代方向与 quota 策略调整的依据;
召回是否引入出价因子:在转化类报价广告上,出价从静态私有估值表达变为面向 CVR/cost 的性价比阈值选择,这使得出价的均值化变得几乎无意义,召回难以引入准确出价,过于依赖调价也会使得参竞不稳定产生更多超限。对此,有两种方法:一种是采用强化学习中的重要性采样奖励的思路,使用出价进行样本加权,以近似 ECPM 排序;另一种是在召回阶段预先预估转化率(CVR)的概率值,但这种方法在召回环节的预估中会存在较强的选择偏差问题。因此,我们的方案是面向 CTCVR 序进行召回,并结合每次广告主填报的转化成本 CPA 进行融合排序,以近似 ECPM 的召回排序。
对比学习质量
对比学习的 NCE Loss 是一种面向序的噪声对比估计损失函数,通过增加正样本对的表征互信息并减少负样本对的互信息,可以增强表征分布均匀性(Uniformity)来缓解基向量非正交情况下的各向异性,使模型更好地学习到数据中的相关性和结构信息,因此通常可以有效处理大规模多类别问题,在处理数据稀疏性、数据不平衡方面更有效。对比学习领域,大部分工作使用 NCE 损失函数在自监督学习上取得了卓越的表现,也有部分工作在有监督任务上把 NCE Loss 替换为 BCE Loss 取得了不错的效果(SigLip https://arxiv.org/abs/2303.15343),也有在排序模型领域结合 BCE 与 NCE,在面向 GAUC 学习的情况下兼容 pointwise 尺度校准不受影响(RCR https://arxiv.org/abs/2211.01494)。
InfoNCE的温度与正则:通过微调温度参数𝜏,可以得到显著的对比学习效果提升。温度调节 logits 值域与 softmax 概率分布的平滑程度,如果分布越平滑则训练过程中不会过早收敛于局部最优,对噪声数据更加鲁棒,但这也会使模型难以区分难负样本;相反,如果分布越极化则越能拉大正负样本的距离,更加关注难负样本的分辨率,但这也可能加剧流行度偏差,使模型更易受到噪声数据的影响。同时,过大或过小的温度都会增加梯度消失的风险,当 𝜏 过大时候 logits 接近均匀分布,负样本越多梯度越接近 0;当 𝜏 过小时,logtis 接近单峰分布,梯度也接近0。因此需要使用适当的正则化策略来避免训练过程中的梯度消失。
SimCSE 分析 InfoNCE 本质上“展平”了嵌入空间的奇异谱,缓解表示退化问题并提高句子嵌入的均匀性(https://arxiv.org/abs/2104.08821);
自适应温度:对于有大量噪声反馈的用户来说,过多关注难负样本是不明智的,需要放大 𝜏;但对于那些有明确且足够反馈的用户来说,降低 𝜏 可以增强模型收敛性和区分度。用户粒度累计 loss 越大 𝜏 越大,反之 𝜏 越小(https://arxiv.org/abs/2302.04775);
缓解伪负例敏感问题:InfoNCE 在温度 𝜏 较小时候,本质是在拉大正样本与负样本中最难样本的距离 s(q, v) > max(s(q, v-_1), ... , s(q, v-_n)),这让 InfoNCE 对难负样本有自发现的优势(https://arxiv.org/abs/2012.09740);但与此同时,当负例中包含伪负例噪声时,模型会给一个潜在正例很高的梯度惩罚以至于影响模型收敛,甚至表征奇异值衰减、坍塌到一起,训练现象是负样本 logits 持续上涨,直到 auc 跌到 0.5。针对 InfoNCE 对异常值敏感的问题,我们一方面扩大batch size,减少负采样碰撞的概率;另一方面增加了一个对负样本 logits 的正则,强行推开负样本增强分布均匀性防止表征坍塌;同时我们也参考了以下几个解决方案
外部模型伪负例识别:用一个自监督训练好的SimCSE模型在训练过程中识别伪负例,与正例距离过近的负采样将被过滤(https://arxiv.org/abs/2205.00656);
负样本re-weight:通过re-weight策略将负样本权重分配至“更合理的区域”,而不是固定的仅关注最难的样本(https://arxiv.org/abs/2310.11048),学习一个全局的alpha和rou,控制温度 = alpha * (1 - cos) + rou(https://aclanthology.org/2023.emnlp-industry.72.pdf);
索引亲和的鲁棒性表征:我们采用广告表征间的 L2 距离构建HNSW(Hierarchical Navigable Small World)层次近似近邻索引,根据 Delaunay 图的几何性质,尽管检索距离度量函数是一个Attention+MLP模型,仍然不会破坏基于 L2 表征空间建立的索引距离性质(https://dl.acm.org/doi/10.1145/3336191.3371830)。与此同时,为了让复杂模型能够在 HNSW 索引上有更好的检索效果,我们在训练阶段添加广告表征的小范围扰动,以约束扰动前后距离度量的一致性,从而提高复杂模型距离度量函数与索引 L2 距离的亲和性。
表征维度:表征维度越大,模型的表示容量越大,但也会导致索引存储膨胀与检索计算效率降低,经过权衡模型能力与算力因素后,我们选用 128 维嵌入向量作为双侧表征,更高的维度带来的性能提升边际效果较小;OpenAI提出的表征方法采用了多维度表征空间(MRL 俄罗斯套娃嵌入 https://openai.com/index/new-embedding-models-and-api-updates/https://openai.com/index/new-embedding-models-and-api-updates/),证明了维度越大的情况下检索效果反而出现下降,但在同时训练多个嵌套维度表征时效果可以随维度增大单调递增,在我们场景内限于训练速度没有采纳 MRL 的训练方法;
对抗训练:沿着最大化 Loss 的方向做高斯噪声样本扰动,使得模型能够学习到对抗污染的能力,达到一定的表征鲁棒性(https://spaces.ac.cn/archives/7234),但在我们的实践中发现,基于梯度对抗类的扰动调参比较敏感,在我们数据下检索精度提高的也比较有限;
多任务学习:在Item侧增加对广告行业、类目信息的预测任务,约束表征在语义空间的内聚性(Que2Search);在 CTCVR 转化目标上,联合训练 CTR 点击目标的数据,缓解数据稀疏性;
高性能召回检索引擎
参考二向箔开源的代码,我们以 Tensorflow 计算引擎为底座,实现了一套上限高、易迭代的检索框架。秉承TF计算图的理念,检索过程实现了全图化,天然的融入到了 Tensorflow 的优化手段中。
检索全图化
检索全图化
检索逻辑在 TF 原生算子的基础上,实现了部分自定义算子来解决检索过程中的性能问题。三层邻居扩散的检索过程完全嵌入到 TF 计算图中,使得检索策略迭代非常灵活;
开源代码没有解决索引实时性问题,为此设计了专门的数据操作算子与索引独立更新链路,实现分钟级的高时效性索引切换,有效支撑索引量级的快速增长;
GPU计算性能优化
在计算图优化层面,依托TF的一些优化手段,计算性能与资源利用效率得到极大提升,包括但不限于以下方面:
调整 Placement、混合精度、bitmap 算子融合、GPU 计算逻辑调优、编译与算子融合等
在框架层面,依托业界先进的 DeepRec 框架赋能,仅通过配置即实现底层资源复用,极大提升系统QPS
大模型时代的召回算力基建
实时大模型推词:在 B 端广告主后台上,我们落地了面向营销诉求的实时大模型卖点提取与推词能力,通过 prefix caching 技术对批量 CoT 推理做首词加速(https://arxiv.org/abs/2402.05099),并且正在尝试大模型小型化,如通过 1B 小模型投机采样加速 7B 模型推理(https://arxiv.org/abs/2302.01318);
大模型表征微调训练底座:应用大模型不可避免讨论成本问题,为了让通用大模型低成本的对齐到广告物料语义空间、对齐到广告相关性标准,我们借助开源库搭建了面向低成本大模型微调的多卡训练基建,并采用更简化、对训练系统要求更低的 Lora 与 DPO 方式轻量级微调与对齐;
图7 大模型训练与推理引擎Overview
本文介绍了在强语义约束、广告物料高速增长、多种投放目标并存的业务背景下,小红书搜索广告召回的演进、实践与思考。首先,我们明确定义了召回算法能力的水位指标,确定了头尾流量各自的提效目标。接着,我们从单一语义目标发展到语义效率联合建模,实施了“语义探索”与“效率承接”的数据循环策略。最后,我们用 MLP+Attention 的复杂模型替代了双塔内积的 GPU 高性能检索引擎,并将其应用在语义、点击、转化三路召回模型中,效率通道可覆盖线上80%点击、60%转化,经过五期的优化,平台营收 CPM1 提升了+5%。
随着大模型模型能力与推理成本的不断发展,可预见目前搜索技术栈将成为大模型的其中一种 RAG 通路,而用户搜索交互也将通过多 Agent、多轮对话,直接提供准确的答案,并即时交互修正答案。大模型表现出的推理与涌现能力,不止是人类知识获取方式的革命,也开启了下一代自然语言的人机交互,为科学和产业带来了双重机会。在这场变革中搜索业务是最直接面临大模型技术的颠覆,应用大模型技术是在守住搜索业务未来市场份额的生命线,需要我们这些身在其中的从业者有『明者见于未萌』的思考深度与『杀鸡就要用牛刀』的探索魄力。
在当下人工智能生成一切(AIGX)、航天与能源革命的时代回望,仿佛看到传统搜推广技术栈和提效范式的黄昏,我们盼着新技术解救我们,也在面对大模型革命从犹豫又偏执,到接纳与重建,抖落了前路的生机勃勃与野蛮生长,意气风发的站在时代新的舞台的正中间。
匡时
小红书搜索广告算法架构师,负责搜索广告场景的广告召回策略、营销场景大模型、关键词推荐的设计和技术研发。
江哲
小红书搜索广告算法召回&推词方向负责人,负责搜索广告场景的广告召回策略、关键词推荐、相关性策略的设计和技术研发。
搜索广告算法(召回策略)
岗位职责
1. 参与搜索广告召回架构升级&算法迭代,保证曝光广告的相关性前提下提升广告匹配效率,让广告主物料高效被分发。
2. 熟悉常见的Query理解与改写策略, 对NLP中Bert等常见语义模型 & GNN 图模型& 复杂模型召回有一定了解,在表征学习、倒排检索、向量检索、检索排序有经验。有多召回通路联合优化 / 全链路一致性等相关工作经验的加分。
3. 利用小红书丰富的内容和多样的用户行为个性化对广告进行精准推词,打造搜索场域 广告推词-Query改写的飞轮,助力商家的内容分发效率。
任职资格
1. 计算机相关专业,本科以上学历, 2年以上工作经验。
2. 在机器学习,深度学习,数据挖掘,自然语言处理,推荐系统,富媒体建模等一个或多个算法领域有扎实的理论基础和丰富的研发经验,对算法原理及应用有较深入的理解。
3. 具有很强的编程能力,至少熟练java/python/golang/c++其中一种开发语言。
4. 具备优秀的分析和解决问题的能力,对解决具有挑战的问题充满激情,具备良好的主动性和求知欲,具备良好的沟通协作和抗压能力。
5. 在互联网效果和品牌广告、自然搜索、自然推荐中某一领域有工作经验则更佳。
欢迎感兴趣的朋友发送简历至REDtech@xiaohongshu.com 并抄送至 yangcan1@xiaohongshu.com
往期精彩内容指路
添加小助手,了解更多内容
微信号 / REDtech01