多场景下的搜索词推荐算法

1. 多场景下的搜索词推荐算法李晓亮

2. 目录 CONTENT 01 搜索词推荐场景介绍 02 推荐物品个性化词推荐 Query自动补全文章/视频相关搜索结果页相关搜索 Query理解 Query生产搜索结果页满足度 03 04 推荐算法设计粗排模型多任务排序模型 Query自动补全场景Top满足未来展望多任务时间序列搜索结果页理想体验

3. 01 搜索词推荐场景介绍

4. 搜索词推荐场景介绍 QQ 浏览器中的搜索词推荐个性化词推荐搜索结果页相关搜索 Query自动补全视频相关搜索文章相关搜索

5. 搜索词推荐场景介绍新闻推荐推荐可评估性 Context user：兴趣标签 query：切词、意图 video/ doc ：标题、标签、类别内容生态物品属性易变 ...... Query 1. Context 和 Query 的匹配以 Query 点击率为核心目标 2. Query 和搜索结果的匹配，搜索结果页满足度 3. 最终内容的呈现和消费

6. 02 推荐物品

7. 推荐物品用户输入Query 用户输入 Query/ 推荐 Query 搜索结果页意图（官网、问答、资讯、时效性） Term（核心词、命名实体）搜索QV（信息流消费PV、新闻页数量）信息流分类（体育、健康、军事等）入库时间、天极/周级/小时级趋势词质量（低俗/敏感过滤/完整性/谣言等）搜索结果页 url、title、分词基础相关性（title/内容匹配、bm25等）权威性（账号/站点等级、内容质量等）语义相关性文章意图、url点击分布时效性（发布时间、热度趋势等）推荐Query Query自动补全场景

8. 推荐物品词（ Query ）库系统架构

9. 推荐物品搜索结果页满足度相关性搜索结果和用户需求匹配程度，是不是说的同一个事情，是不是抓住了用户的主要搜索需求丰富性内容是否详细、资源载体（图文、视频、小程序）、全集vs单集等时效性突发新闻识别（梅西百科vs梅西获得第7次金球奖）、时鲜性（股价、天气、彩票开奖）内容质量文本质量（排版、错别字）、图片质量、视频质量、浏览体验、站点权威性

10. 03 推荐算法设计

11. 推荐算法设计粗排 - 数据稀疏性精排 - 多任务学习精排 -TopN 满足 ......

12. 推荐算法设计【个性化词推荐】粗排 - 数据稀疏性用户塔一次用户请求只计算一次，得到 user embedding，然后和万级别的 item id一起分发给下游的节点。 Query 塔离线批量计算后通过相同的hash算法分发到下游不同的机器上，缓存在本地内存，在线请求时通过查本地缓存得到query embedding。交叉 & 顶层网络通过上游传下来的user embedding 以及本地查询得到的query embedding，在线实时计算得到推荐query的pctr。

13. 推荐算法设计【个性化词推荐】粗排 - 数据稀疏性 3. 样本偏差需要同时考虑到被模型低估部分。 1. 推荐词场景点击率低，直接使用线上真实曝光点击样本存在较严重的样本偏差问题。 2. 数据分析发现精排 pctr 和粗排 pctr 偏差非常大。样本 1）以预估偏差 ???? ! − ???? " 为权重抽样 2）精排 & 展控前 40 的线上真实行为前 800 条 1 万精排 1）粗排前 800 条物料 2）粗排 800 后抽样 50 条物料抽样 50 条召回后粗排 1 万量级 ü 精排分与粗排分的预估偏差单向回传student网络

14. 推荐算法设计【个性化词推荐】粗排 - 数据稀疏性 embedding table 双塔网络的交叉特征 $ ? !→# = ? !→# ? ! , ? # = ? !→# ? ! ⋅ ? #$ $ ? #→! = ? #→! ? # , ? ! = ? #→! ? # ⋅ ? !$ 引入用户辅助embedding学习item交叉特征

15. 推荐算法设计【文章相关搜索】精排 - 多任务学习 A C B 1. CTR 5. 文章 -Query 相关性 D 4. 结果页消费数（全）包含主动搜索 E 2. 结果页有点率 3. 结果页消费数（独立） 1.CTR 目标和结果页有点率目标存在依赖关系，适合 ESMM 建模，同时也能够缓解直接预估有点率的样本偏差问题。 2. 结果页有点率、不同场景的消费数、点击率、相关性等目标存在一定的相关性，适合 MMoE 建模。

16. 推荐算法设计【文章相关搜索】精排 - 多任务学习

17. 推荐算法设计【文章相关搜索】精排 - 多任务学习 ...... ü 引入多层的专家网络 ü 不同目标/用户群体的分离/组合 ü 不同目标下的embedding独立/共享 ü 不同目标下的Norm调整

18. 推荐算法设计【 Query 自动补全】精排 -TopN 满足 1. Query 自动补全作为用户搜索主路径，帮助用户提升输入效率 2. 相比于其他词推荐场景，更加关注用户的 TopN 满足率 pairwise-loss <1, 4>逆序 <2, 4>逆序 <3, 4>逆序 ℓ??? = (1 − ?) 1 ℓ??? %&!'()!*+ + ? 1 ℓ??? ,-!.)!*+ '10 = ⋯ + ? 1 4 ℓ??? ?, ? ' , ? ! !/0 其中： ?为搜索Query，?为点击位置，? ? 为点击Sug词 ℓ??? ?, ? $ , ? % 是逆序pair的交叉熵损失 − log ? %& ℓ??? ?, ? ' , ? ! = log(1 + ? 12⋅ 456!( ! 1 456!( " ) pctr = ???????(?????)

19. 推荐算法设计【 Query 自动补全】精排 -TopN 满足评估指标 1. 分位置 top@n 点击占比 2. 分位置 top@n 点击率 lambda-loss '10 ℓ??? 9:;<=: = 4 ℓ??? ?, ? ' , ? ! 1 ∆NDCG(? ' , ? ! ) !/0 '10 = O ℓ??? ?, ? ' , ? ! 1 ? ' − ? ! 1 1 − ? ' ? ! !/0 '10 = O ℓ??? ?, ? ' , ? ! 1 其中，? ! = !/0 7 " log 8 1 + ? −1 log 8 1 + ? 2 −1 ，? ! = log 8 (1 + ?) max ??? 3. ndcg@n

20. 推荐算法设计【 Query 自动补全】精排 -TopN 满足理想体验得分前缀召回语义召回倒排召回等级 4 正常满足 3 部分满足 2 不太满足 1 完全无法满足&恶劣 0 完全无法满足&严重恶劣 Query词质量初筛（LTR）搜索结果满足度相关性丰富度 Query结果页质量初筛（LTR）时效性人工标注数据后训练 LTR 模型内容质量 Query理解页面内容理解多任务精排模型

21. 04 未来展望

22. 未来展望 Multi-Task + Session/Sequence 更加立体的搜索词推荐，横向上打通多个场景，纵向上引入行为序列信息搜索，是满足用户在不同场景下的好奇心诉求个性化词推荐 Query自动补全视频相关搜索文章相关搜索新闻小说影视音乐

23. 未来展望推荐词用户满意度推荐，是解决信息过载下用户对有价值内容的消费需求。搜索词是桥梁，联通用户需求和搜索结果页的内容（文章、视频、小程序、问答等）搜索差异化内容持续接入、结果页搜索体验的持续提升。引入更实时、全面的结果页信号（满意度、时效性、内容质量、后验消费等）。借助 QQ 浏览器实验室“神舟”预训练模型，持续提升 Query 理解能力，优化推荐词本身质量。 ......

24. 非常感谢您的观看欢迎扫码关注 QQ 浏览器实验室交流、学习：