多场景下的搜索词推荐算法

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 多场景下的搜索词推荐算法 李晓亮
2. 目录 CONTENT 01 搜索词推荐场景介绍 02 推荐物品 个性化词推荐 Query自动补全 文章/视频相关搜索 结果页相关搜索 Query理解 Query生产 搜索结果页满足度 03 04 推荐算法设计 粗排模型 多任务排序模型 Query自动补全场景Top满足 未来展望 多任务 时间序列 搜索结果页理想体验
3. 01 搜索词推荐场景介绍
4. 搜索词推荐场景介绍 QQ 浏览器中的搜索词推荐 个性化词推荐 搜索结果页相关搜索 Query自动补全 视频相关搜索 文章相关搜索
5. 搜索词推荐场景介绍 新闻推荐 推荐可评估性 Context user: 兴趣标签 query: 切词、意图 video/ doc : 标题、标签、类别 内容生态 物品属性易变 ...... Query 1. Context 和 Query 的匹配 以 Query 点击率为核心目标 2. Query 和搜索结果的匹 配,搜索结果页满足度 3. 最终内容的呈现和消费
6. 02 推荐物品
7. 推荐物品 用户输入Query 用户输入 Query/ 推荐 Query 搜索结果页 意图(官网、问答、资讯、时效性) Term(核心词、命名实体) 搜索QV(信息流消费PV、新闻页数量) 信息流分类(体育、健康、军事等) 入库时间、天极/周级/小时级趋势 词质量(低俗/敏感过滤/完整性/谣言等) 搜索结果页 url、title、分词 基础相关性(title/内容匹配、bm25等) 权威性(账号/站点等级、内容质量等) 语义相关性 文章意图、url点击分布 时效性(发布时间、热度趋势等) 推荐Query Query自动补全场景
8. 推荐物品 词( Query )库系统架构
9. 推荐物品 搜索结果页满足度 相关性 搜索结果和用户需求匹配程度,是不是说的同一个事情,是不是抓住了用户的主要搜索需求 丰富性 内容是否详细、资源载体(图文、视频、小程序)、全集vs单集等 时效性 突发新闻识别(梅西百科vs梅西获得第7次金球奖)、时鲜性(股价、天气、彩票开奖) 内容质量 文本质量(排版、错别字)、图片质量、视频质量、浏览体验、站点权威性
10. 03 推荐算法设计
11. 推荐算法设计 粗排 - 数据稀疏性 精排 - 多任务学习 精排 -TopN 满足 ......
12. 推荐算法设计 【个性化词推荐】粗排 - 数据稀疏性 用户塔 一次用户请求只计算一次,得到 user embedding,然后和万级别的 item id一起分发给下游的节点。 Query 塔 离线批量计算后通过相同的hash算 法分发到下游不同的机器上,缓 存在本地内存,在线请求时通过 查本地缓存得到query embedding。 交叉 & 顶层网络 通过上游传下来的user embedding 以及本地查询得到的query embedding,在线实时计算得到推 荐query的pctr。
13. 推荐算法设计 【个性化词推荐】粗排 - 数据稀疏性 3. 样本偏差需要同时考虑到被模型低估部分。 1. 推荐词场景点击率低,直接使用线上真实曝光点击样本存 在较严重的样本偏差问题。 2. 数据分析发现精排 pctr 和粗排 pctr 偏差非常大。 样本 1)以预估偏差 𝑝𝑐𝑡𝑟 ! − 𝑝𝑐𝑡𝑟 " 为权重抽样 2)精排 & 展控前 40 的线上真实行为 前 800 条 1 万 精排 1)粗排前 800 条物料 2)粗排 800 后抽样 50 条物料 抽样 50 条 召回后粗排 1 万量级 ü 精排分与粗排分的预估偏差单向回传student网络
14. 推荐算法设计 【个性化词推荐】粗排 - 数据稀疏性 embedding table 双塔网络的交叉特征 $ 𝒑 !→# = 𝒇 !→# 𝒆 ! , 𝒆 # = 𝑓 !→# 𝒆 ! ⋅ 𝑒 #$ $ 𝒑 #→! = 𝒇 #→! 𝒆 # , 𝒆 ! = 𝑓 #→! 𝒆 # ⋅ 𝑒 !$ 引入用户辅助embedding学习item交叉特征
15. 推荐算法设计 【文章相关搜索】精排 - 多任务学习 A C B 1. CTR 5. 文章 -Query 相关性 D 4. 结果页消费数(全) 包含主动搜索 E 2. 结果页有点率 3. 结果页消费数(独立) 1.CTR 目标和结果页有点率目标存在依赖关系,适合 ESMM 建模,同时也能够缓解直接预估有点率的样本偏 差问题。 2. 结果页有点率、不同场景的消费数、点击率、相关性 等目标存在一定的相关性,适合 MMoE 建模。
16. 推荐算法设计 【文章相关搜索】精排 - 多任务学习
17. 推荐算法设计 【文章相关搜索】精排 - 多任务学习 ...... ü 引入多层的专家网络 ü 不同目标/用户群体的分离/组合 ü 不同目标下的embedding独立/共享 ü 不同目标下的Norm调整
18. 推荐算法设计 【 Query 自动补全】精排 -TopN 满足 1. Query 自动补全作为用户搜索主路径,帮助用户提升输入效率 2. 相比于其他词推荐场景,更加关注用户的 TopN 满足率 pairwise-loss <1, 4>逆序 <2, 4>逆序 <3, 4>逆序 ℓ𝑜𝑠𝑠 = (1 − 𝜆) 1 ℓ𝑜𝑠𝑠 %&!'()!*+ + 𝜆 1 ℓ𝑜𝑠𝑠 ,-!.)!*+ '10 = ⋯ + 𝜆 1 4 ℓ𝑜𝑠𝑠 𝑞, 𝑠 ' , 𝑠 ! !/0 其中: 𝐪为搜索Query,𝐧为点击位置,𝒔 𝒏 为点击Sug词 ℓ𝑜𝑠𝑠 𝑞, 𝑠 $ , 𝑠 % 是逆序pair的交叉熵损失 − log 𝑃 %& ℓ𝑜𝑠𝑠 𝑞, 𝑠 ' , 𝑠 ! = log(1 + 𝑒 12⋅ 456!( ! 1 456!( " ) pctr = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑙𝑜𝑔𝑖𝑡)
19. 推荐算法设计 【 Query 自动补全】精排 -TopN 满足 评估指标 1. 分位置 top@n 点击占比 2. 分位置 top@n 点击率 lambda-loss '10 ℓ𝑜𝑠𝑠 9:;<=: = 4 ℓ𝑜𝑠𝑠 𝑞, 𝑠 ' , 𝑠 ! 1 ∆NDCG(𝑠 ' , 𝑠 ! ) !/0 '10 = O ℓ𝑜𝑠𝑠 𝑞, 𝑠 ' , 𝑠 ! 1 𝐺 ' − 𝐺 ! 1 1 − 𝐷 ' 𝐷 ! !/0 '10 = O ℓ𝑜𝑠𝑠 𝑞, 𝑠 ' , 𝑠 ! 1 其中,𝐺 ! = !/0 7 " log 8 1 + 𝑛 −1 log 8 1 + 𝑖 2 −1 ,𝐷 ! = log 8 (1 + 𝑖) max 𝐷𝐶𝐺 3. ndcg@n
20. 推荐算法设计 【 Query 自动补全】精排 -TopN 满足 理想体验得分 前缀召回 语义召回 倒排召回 等级 4 正常满足 3 部分满足 2 不太满足 1 完全无法满足&恶劣 0 完全无法满足&严重恶劣 Query词质量初筛(LTR) 搜索结果满足度 相关性 丰富度 Query结果页质量初筛(LTR) 时效性 人工标注数据后训练 LTR 模型 内容质量 Query理解 页面内容理解 多任务精排模型
21. 04 未来展望
22. 未来展望 Multi-Task + Session/Sequence 更加立体的搜索词推荐,横向上打通多个场景,纵向上引入行为序列信息 搜索,是满足用户在不同场景下的好奇心诉求 个性化词推荐 Query自动补全 视频相关搜索 文章相关搜索 新闻 小说 影视 音乐
23. 未来展望 推荐词用户满意度 推荐,是解决信息过载下用户对有价值内容的消费需求。搜索词是桥梁,联通用户需求和搜索结果页的内容(文章、视频、 小程序、问答等) 搜索差异化内容持续接入、结果页搜索体验的持续提升。 引入更实时、全面的结果页信号(满意度、时效性、内容质量、后验消费等)。 借助 QQ 浏览器实验室“神舟”预训练模型,持续提升 Query 理解能力,优化推荐词本身质量。 ......
24. 非常感谢您的观看 欢迎扫码关注 QQ 浏览器实验室 交流、学习:

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.124.0. UTC+08:00, 2024-05-03 08:36
浙ICP备14020137号-1 $访客地图$