在电子商务搜索领域,语义匹配直接影响到用户体验。查询改写技术作为弥合语义匹配过程中固有语义鸿沟的重要技术,受到了工业界和学术界的广泛关注。然而,现有的查询改写方法往往难以有效地优化长尾查询,也难以缓解语义鸿沟导致召回过程中出现的“无少结果”现象。针对这一现象,淘天集团算法技术团队提出了一个基于大语言模型的查询改写框架——BEQUE,它可以消除长尾查询的语义鸿沟。BEQUE 已于 2023 年 10 月在淘宝网上部署。在线 A/B 测试表明,我们的方法可以显著提高长尾查询的商品交易总额(GMV)、交易笔数(#Trans)和独立访客数(UV)。基于该工作整理的论文已发表在WWW 2024,欢迎阅读交流。
作者:才达、如鸣、丹鸥、元涵
论文:Large Language Model based Long-tail Query Rewriting in Taobao Search
在本文中,我们提出的BEQUE可以消除长尾查询的语义鸿沟。具体来说,BEQUE包括三个阶段:多指令监督微调、离线反馈和目标对齐。我们首先基于拒绝采样和辅助任务混合构建一个查询改写数据集,以有监督方式微调我们的大语言模型。随后,利用该大语言模型,我们采用波束搜索(beam search)生成多个候选改写,并将其输入到淘宝离线系统以获得候选改写的偏序关系。随后,我们引入了一种对比学习方法以突出改写之间的区别,并使模型训练目标与淘宝网的线上目标保持一致。离线实验证明了我们的方法在弥合语义鸿沟方面的有效性。
过去几十年来,淘宝、京东和亚马逊等电子商务公司已积累了数以亿计的用户,每年创造数十亿美元的商品交易总额(GMV)。为了方便这些用户快速检索相关商品,工业界提出了一种行之有效的搜索范式,如图 1 所示,具体来说,这种范式包括几个步骤,即语义理解—检索—排序。其中,语义理解是整个系统的基础,确保准确匹配用户意图。然而,由于用户对商品喜好的表达方式各不相同,他们的查询和商品关键词之间往往存在语义鸿沟。对于长尾查询更是如此,检索系统可能无法提供任何相关商品。例如,具备某种个人表达习惯的用户可能会输入“自做盲盒”这样的长尾查询,如果输入“DIY 盲盒”这样的同义查询,则会得到更多的检索结果。遗憾的是,传统的术语匹配解决方案(如倒排索引)很可能无法将常用的“DIY”与非习惯用语“自做”匹配起来,从而限制了检索结果,严重影响了用户体验。因此,亟需解决长尾查询的语义鸿沟难题,从而解决电子商务平台“无少结果”的问题。
传统技术主要研究“基于嵌入的检索”范式,即首先将查询和商品映射到一个共同的语义空间,然后利用近似近邻(ANN)方法召回相关商品。然而,检索结果可能难以解释,这严重限制了其性能。为了增强检索结果的可控性,人们在“查询改写-精确匹配”这一范式上做了一些努力。一方面,一些研究人员试图通过从查询改写集中找到相似术语来“改写”查询,然后利用稀疏检索技术来搜索相关商品。虽然这些方法可以有效扩展热门查询的语义,但长尾查询没有得到充分优化,因此无法生成相关的改写。另一方面,生成类方法涉及对<查询,改写>数据进行有监督训练过程,可以增强模型的改写能力,并进一步结合对齐过程来增强度量偏好。虽然这些方法部分解决了语义鸿沟问题,但它们通常依赖于小型生成模型,对长尾查询的理解能力有限,大大限制了改写能力。最近,随着大语言模型技术的发展,一些人将大语言模型用作检索数据增强生成器,但这些方法不进行额外的训练来扩展查询语义。因此,这些方法即使经过精心设计的提示,仍会限制查询改写任务的专业化能力,导致其目标与电子商务搜索不符。
长尾查询改写旨在扩展原始查询语义,以解决语义鸿沟问题,同时确保相关性。为此,如图 2 所示,我们提出了一个三阶段改写框架,包括:多指令监督微调、离线反馈和目标对齐。
鉴于没有公开的大语言模型是专门为电子商务查询改写而设计的,直接利用通用大语言模型来解决长尾查询语义鸿沟问题很可能会引入不准确性和噪音。因此,我们通过收集各种与改写相关的任务来微调大语言模型,从而增强它们理解和改写电商查询的能力。
我们从淘宝上一代改写策略中获取改写对从而获得初始改写数据集。具体来说,当用户在淘宝搜索中发起查询时,旧的改写策略会生成一个改写查询列表。我们从中选出排名最靠前的候选作为黄金标准,构建初始改写数据集。
需要强调的是,电子商务查询改写不同于其他文本生成任务。在这种情况下,查询和改写之间的语义相似性并不一定能保证检索到相似的商品集。我们的目标是改写候选所检索到的商品与原始查询之间具有高度相关性。为了实现这一目标,我们通过检索商品相关性对改写数据集进行第一次拒绝采样。
此外,淘宝的上一代改写模型主要缺乏对长尾查询的优化。在开发新一代改写模型时,我们的目标是保持检索相关性的同时,扩展原始查询语义。这种扩展旨在缓解长尾查询导致“无少结果”的问题。因此,我们在考虑检索增量的情况下,再次利用拒绝采样来过滤改写数据。
为了进一步提高大语言模型理解长尾查询的能力,我们收集了三个与查询改写相关度较高的任务数据集。这些任务包括质量分类、商品标题预测和思维链。
上述辅助任务的详细提示设计见表1。这些数据集随后被纳入改写任务,以构建 SFT 阶段的数据集。
条件语言模型生成文本的过程可视为一种受限自回归抽样策略。给定提示语x及其黄金标准y,训练目标是最大化条件概率,因此改写模型的训练目标为最小化负对数似然:
目前,大多数对齐方法都依赖于人工注释和训练好的奖励模型。然而,我们认为这些方法很容易受到标注数据质量和奖励模型训练效果的影响。这往往会导致模型对输出的打分不准确,并影响生成模型的学习。为解决这一问题,我们提出了一种基于淘宝搜索引擎的反馈系统。它能提供更准确的改写分数。
我们的反馈系统收到改写请求时,它会模拟淘宝在线服务的流程,为改写检索相应的商品。根据商品集,我们的系统会为我们提供一个质量分数。值得注意的是,我们主要解决的是精确匹配中长尾查询造成的语义鸿沟问题。因此,我们的改写模块只对检索模块的倒排索引匹配进行操作,改写检索所考虑的商品集只与倒排索引这一路相关。在此,我们提出了衡量倒排索引改写质量的三个分数,即相关性、增量和命中率:
其中,和为原始查询和其改写,为指示函数,为淘宝相关性函数,用于评估商品标题与查询文本之间的相关性,表示查询-商品对的语义相关性阈值,表示文本的离线检索商品列表。表示文本的离线检索商品集,是淘宝搜索组维护的优秀商品集。是用户在搜索场景之外交易过的商品集合,和表示文本和的离线检索商品集。
我们提出的基于淘宝搜索引擎的反馈系统通过考虑相关性、增量和命中率,提供了更准确的改写分数。这有助于改进对齐过程,确保更好地学习生成模型。
为了避免通过奖励模型引入偏差,我们引入了基于布拉德利-特里模型的偏好等级优化(PRO)。该方法旨在强制模型学习离线反馈提供的改写偏序关系。根据布拉德利-特里模型,选择策略的概率应与相应的奖励成正比。给定偏序关系:,偏好概率可表示为:
PRO将这种成对排序扩展为更一般的列表偏序关系。此外,还引入了一个温度系数,以反映基于奖励的排序的重要性。PRO损失用以下公式表示:
我们在PRO损失的基础上增加SFT损失,权重为,以保持模型生成正常输出的能力:
算法团队将BEQUE与CLE-QR、query2doc (Q2D)、BART、Qwen和基于RL的大语言模型等多个基线进行了比较。CLE-QR是淘宝搜索的上一代查询改写器,它基于对比学习为每个查询生成语义表征并检索相关改写。BART是一种基于编码器-解码器结构的强大预训练生成模型。我们利用在线日志中的<查询,改写>对对其进行微调,以增强其改写电子商务查询的能力。Qwen是一个基于解码器结构的大规模语言模型,包含70亿个参数。同样,我们利用在线日志中的<查询,改写>对对其进行微调,以增强其改写电子商务查询的能力。此外,我们引入了基于RL的大语言模型,并利用相关性、增量和命中率作为奖励,分别鼓励RL模型与淘宝的离线指标保持一致。通过分析表2中的数据,可以得出以下结论:
为了评估BEQUE的实际在线表现,我们将其部署在淘宝搜索上进行了为期14天的在线测试:在此期间,我们记录了淘宝搜索场景中的三个关键指标:GMV、#Trans 和 UV。表3显示,BEQUE 在 GMV、#Trans 和UV方面分别比上一代改写模型CLE-QR高出0.4%、0.34% 和0.33%。这意味着BEQUE为淘宝搜索贡献了数百万GMV。值得注意的是,这里提到的总体性能指的是测试桶中的所有查询。由于我们是离线推理,因此约有 70% 的在线查询没有命中我们的改写表。即使在这些情况下,我们的模型仍能带来显著的提升。此外,对于BEQUE所覆盖(改写)的查询(约占总 PV 的 27%),GMV、#Trans 和UV分别显著增加了 2.96%、1.36% 和 1.22%。这些发现表明,BEQUE能有效地改写查询,并解决语义匹配过程中潜在的语义鸿沟。此外,BEQUE还明显改善了长尾查询和“无少结果”查询的在线 #Trans 和 UV。此外,由于这一部分所占流量比例较低,我们忽略了该子集的GMV波动。这一改进可归功于我们对长尾查询的专门优化。本文所提出的框架BEQUE在第一阶段有监督训练过程中,采用了拒绝采样和辅助任务数据提高了模型在检索增量和相关性方面的性能,也加深了模型对长尾查询的理解。第二和第三阶段的对齐过程有效地迫使模型与淘宝搜索的在线目标保持一致。
在本文中,我们介绍了BEQUE,这是一个专为电子商务查询改写而设计的框架。BEQUE的主要目标是解决语义匹配过程中出现的语义鸿沟,尤其是长尾查询。首先,我们采用拒绝采样和辅助任务混合的方法来提高改写数据集的质量。然后,我们使用这一改进后的数据集训练大语言模型,从而提高模型的查询理解能力,实现对电子商务查询的有效改写。利用训练好的大语言模型,我们为每个抽样查询生成多个候选改写。为了在这些候选改写中确定偏序关系,我们创建了一个基于在线淘宝搜索的离线反馈系统。该反馈系统可从相关性、增量和命中率等多个角度准确评估候选改写的检索质量。最后,通过结合改写检索质量的偏序关系,我们引入了PRO,使模型的目标与淘宝的目标保持一致。这确保了我们的方法能够生成高质量的改写结果。通过多次实验,我们证明了我们的方法在改善离线指标方面的有效性。此外,在线 A/B 实验也证明了淘宝搜索的 GMV、#Trans 和UV有了显著提高,尤其是在长尾查询方面。
关注「淘天集团算法技术」,一起成长~