基于商品包含关系的飞猪搜索排序优化

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 基于商品包含关系的飞猪搜索排序优化 阿里巴巴集团-飞猪 黄仔 2021-09-04
2. 飞猪搜索 Ø飞猪搜索 Ø 猪搜(飞猪全局搜索) Ø 行业小搜(酒店、机票、火车票、门票等) Ø猪搜 Ø 旅游决策时跨类目的商品和内容诉求 Ø 手淘引流用户心智,习惯了大而全的搜索 Ø 用户快速便捷的操作路径 Ø行业小搜 Ø 解决用户的某种特定强需求 猪搜 行业小搜
3. 飞猪搜索排序 Ø飞猪搜索排序 Ø 流量分发 Ø 辅助用户购买决策 猪搜结果页排序 酒店小搜结果页排序
4. 猪搜结果页排序架构 Ø猪搜结果页排序 ØQP (QueryPlanner): Query 意图理解 TPP 粗排 Ø召回:文本召回、属性召回、 LBS召回、向量召回、图召回 Ø粗排 Ø精排:CTR、CVR、GMV预估、类目预测等、LTR Ø本工作主要聚焦于猪搜精排的CTR、CVR预估 HA3 粗排 召回 QP
5. 飞猪商品包含关系 Ø单品 Ø 酒店、门票、签证等 A Two-day Package Tour in Singapore Hotel: Marina Bay Sands B Ticket: Gardens by the Bay E Ø复杂商品 Ø 跟团游、周边游、酒店套餐等 Ø 由多个单品构成 Ticket: S.E.A. Aquarium C Ø复杂商品与单品之间存在着 包含关系 Ticket: Singapore Flyer F Ticket: Singapore Zoo and Night Safari Ticket: Universal Studios D G
6. 挑战 Ø基于商品包含关系的排序优化 存在着三个方面的挑战 A Two-day Package Tour in Singapore Hotel: Marina Bay Sands B Ticket: Gardens by the Bay E Ø挑战1 Ø由于包含关系的存在,复杂商品可 以通过其包含的单品的详情获取更 多的信息 Ø被同一个复杂商品的所包含的单品 存在着一定的共性(如距离相近、 在相同的目的地、在同一旅游路线 上等)。 Ø因此在理解和表征商品时需要提取 在包含关系中传递的信息。 Ticket: S.E.A. Aquarium C Ticket: Singapore Flyer F Ticket: Singapore Zoo and Night Safari Ticket: Universal Studios D G
7. 挑战 Ø挑战2 Ø基于商品包含关系,我们可以构造 一个基于包含关系的商品图结构 Ø基于商品包含关系图结构,两个存 在路径相连的商品有实际的关联性, 例如,由于B与D存在关联性,B与 H存在关联性,所以D与H通过路 径D-A-B-J-H存在着关联性。 Ø由于用户可能对与其点击购买过的 商品存在关联性的商品感兴趣,因 此需要建模量化两个存在路径相连 的商品的关联性。
8. 挑战 Ø挑战3 Ø近年来用户行为序列建模的研究表 明通过衡量候选商品和用户点击或 购买过的商品之间的相关性来获取 用户的兴趣可以更有效地预估CTR、 CVR。 Ø因此除了基于商品表征空间的相似 性建模商品与商品之间的相关性外, 还需要考虑存在路径相连的商品的 关联性,以此更好地提取用户兴趣。
9. Item inclusion relations graph e 1 … e N b m User Behaviors Target Item Relation Path Interest Layer e 1 … r e N b e N b t e N b q e N b r m User Behaviors Target Item Representation-based Interest Layer m x c User Profile Features Context Features x u Attention α N b i=1 N b ! … α 1 µ N b … Attention µ 1 t e 1 q e 1 β m,e i r P r e 1 i=1 N b ! r e N b AMU u P … β m,e Nb Sum pooling GEGU r e 1 γ N b … be included including … AMU D F β m,e 1 γ 1 G C A B Q I E J O H DIRN模型 ØDeep Inclusion Relation-aware Network (DIRN) Ø 主要包括Graph-based Embedding Generation Unit (GEGU)、Representation-based Interest Layer、 Relation Path Interest Layer Ø 输入:商品包含关系图、用户点击或购买行为序列、用户特征、打分商品特征、上下文特征 Ø 输出:打分商品被点击或购买的概率 Output Fully connected layers Concat Sum pooling u R … r R α i
10. DIRN模型 ØGraph-based Embedding Generation Unit (GEGU) Ø基于图的Embedding生成模块,利用GraphSAGE强大的图表征能 力,基于商品包含关系图结构,提取在包含关系中传递的信息。 Ø借助GraphSAGE获取基于包含关系商品图结构的商品embedding 表示,即对于每一个商品s,其基于图的商品embedding表示为 Ø然后结合商品属性特征的向量,我们获得商品的向量表示 商品属性向量
11. DIRN模型 ØRepresentation-based Interest Layer Ø通过一个Attention建模基于商品表征空间的相似性衡量商 品与商品之间的相关性,从而获取用户的兴趣表征。 Ø由于用户的兴趣表征是动态变化的,我们引入了用户历史 点击或购买序列的位置以及与当前请求时间的时间间隔。 ØAttention 行为序列中位置向量 时间间隔向量 打分商品向量 行为序列中第i个用户历史点击或购买商品 Ø用户的动态兴趣表征 Ø基于商品表征相似性的总相关性可表示
12. DIRN模型 ØRelation Path Interest Layer Ø首先通过一个Association Measure Unit (AMU)量化在图中有 路径连接商品之间的关联性,然后根据用户点击或购买过的 商品与候选商品之间关联性获取用户的兴趣表征 ØAssociation Measure Unit Ø 首先根据Dijkstra算法获取两个输入商品a与b的所有最短路径 所有最短路径 第k条最短路径 路径中节点的基于图 的商品embedding表示 Ø 然后计算基于每一条最短路径的关联性 Ø 最后选择所有最短路径的关联性最大值作为a与b的关联性
13. DIRN模型 ØRelation Path Interest Layer Ø通过Association Measure Unit,得到用户点击或购买过的商 品与候选商品之间关联性 Ø根据关联性获取用户基于关联性的兴趣表征 行为序列中第i个用户 历史点击或购买商品 与打分商品的关联性 Ø基于关联性的总相关性可表示
14. Item inclusion relations graph e 1 … e N b m User Behaviors Target Item Relation Path Interest Layer e 1 … r e N b e N b t e N b q e N b r m User Behaviors Target Item Representation-based Interest Layer x u x c Attention α N b i=1 N b ! µ N b m … … α 1 µ 1 t e 1 q e 1 Attention β m,e i … r P … r e 1 i=1 N b ! Sum pooling r e N b … AMU β m,e Nb β m,e 1 u P Sum pooling … γ N b GEGU r e 1 γ 1 D F be included including AMU G C A B Q I E J O H DIRN模型 Ø预测输出层 Ø将用户的动态兴趣表征、基于关联性的兴趣表征、基于商品表征相似性的总相关性、基于关联 性的总相关性、用户属性特征向量、候选打分商品属性特征向量、上下文特征向量合并成一个 长向量,经过一个全连接网络得到打分商品被点击或购买的概率p Output Fully connected layers Concat u R r R α i User Profile Context Features Features
15. DIRN模型 Ø模型训练 Ø首先基于包含关系的图结构预训练GraphSAGE,基于预训练的GraphSAGE得到每一个商品的基于 图的embedding表示 Ø然后Dijkstra算法获取任意两个路径连接商品之间的所有最短路径,离线计算得到两个路径连接商 品之间的关联性 Ø最后利用以下损失函数训练除GraphSAGE外的DIRN模型参数
16. 离线实验评估 Ø数据集 Ø收集于猪搜结果页排序的部分场景, 包含1.56亿曝光点击样本,可用于点 击率预估 Ø30天样本作为训练集,随后的一天样 本作为测试集 Ø一共有130w+商品,其中有30w+的复 杂商品,每个复杂商品平均包含3.4个 单品 Ø商品特征包括商品id、类目id、城市id 特征,用户特征包括用户id、年龄、 性别
17. 离线实验评估 ØCTR预估实验结果 Ø相比于所有SOTA基准模型,DIRN模 型在AUC和Logloss指标上均表现最好 Ø相 比 于 最 好 的 基 准 模 型 DMR (Deep Match to Rank) ,在AUC指标上取得 了0.0075的绝对增益
18. 离线实验评估 Ø消融实验 ØDIRN-NO-RPIL 表 现 优 于 DIRN-NO- RPIL-GE,证明了GEGU的有效性 ØDIRN表现优于DIRN-NO-RPIL和DIRN- NO-RIL , 证 明 了 DIRN 模 型 通 过 Relation Path Interest Layer 和 Representation-based Interest Layer两 种方式获取用户兴趣能够有效提升猪 搜排序的点击率预估效果 ØDIRN 表 现 优 于 DIRN-NO-PE 和 DIRN- NO-TI,证明了引入位置编码和时间 间隔的有效性 ü DIRN-NO-RPIL-GE: DIRN 去掉 Relation Path Interest Layer 和GEGU. ü DIRN-NO-RPIL: DIRN 去掉Relation Path Interest Layer. ü DIRN-NO-RIL: DIRN 去掉Representation-based Interest Layer. ü DIRN-NO-PE: DIRN 不引入位置编码 ü DIRN-NO-TI : DIRN 不引入时间间隔
19. 离线实验评估 ØCase分析 Ø 由于商品b包含打分商品m,所以相比于其他同类型商品,b与m具有更高的基于商品表征相似性的相关性μi,说明了 Representation-based Interest Layer可以有效地获取用户兴趣 Ø 由于商品b包含h和m,所以尽管h与m的基于商品表征相似性的相关性μi很低,但它们具有很高的关联性γi;b和m具有最 高的关联性,说明Relation Path Interest Layer通过商品包含关系路径的关联性可以有效地获取用户兴趣
20. 在线部署 Ø包括离线训练和在线服务 Ø离线训练 Ø首先利用AliGraph预训练GraphSAGE,获取每一个商品 的基于图的embedding表示,并将其放入商品特征表 Ø计算商品包含关系图中任意两个有路径相连的商品的 关联性,用于线上预估 Ø利用ESMM多任务学习的方式同时训练DIRN CTR模型 和DIRN CVR模型,并部署到RTP。
21. 在线部署 Ø在线服务 ØTPP首先处理输入请求参数、得到用户、query等特征 以及获取候选打分商品集合 Ø获取用户的点击购买行为序列 Ø调用RTP中DIRN CTR模型和DIRN CVR模型得到每个候 选打分商品的CTR、CVR预估值 ØCTR、CVR预估值与其他预估值(比如GMV、类目预估 等)一起输入到LTR模型,得到每个候选商品的排序分 ØTPP根据LTR的排序分对候选商品集合进行排序,返回 给猪搜结果页排序服务,透出给用户
22. 在线部署 Ø线上A/B实验 Ø基准模型为DMR (Deep Match to Rank), 用于预估CTR和CVR Ø线上A/B效果:DIRN相比于DMR,猪搜 结果页排序CTR、CVR、GMV相对提升 1.7%、2.4%、6.0%。
23. 总结 Ø本工作介绍了商品包含关系在飞猪搜索排序的重要性和挑战 Ø针对存在的挑战,提出了一个新的DIRN模型,充分利用商品包含关系优化猪搜排 序的CTR、CVR预估 Ø在猪搜结果页排序的数据集进行了大量实验,对比SOTA模型,实验结果证明了 DIRN模型的有效性 ØDIRN模型部署到线上,服务猪搜结果页排序,通过A/B实验,DIRN在CTR、CVR、 GMV上取得了显著的提升 Zai Huang, Mingyuan Tao, and Bufeng Zhang. 2021. Deep Inclusion Relation-aware Network for User Response Prediction at Fliggy. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (KDD '21). Association for Computing Machinery, New York, NY, USA, 3059–3067.
24. THANK YOU!

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.1. UTC+08:00, 2025-01-12 08:58
浙ICP备14020137号-1 $mapa de visitantes$