内容搜索算法优化的探索与实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 内容搜索算法优化的探索与实践 点评技术部 – 社区搜索 – 杨一帆 美团点评事业部
2. 目录 01 内容搜索业务现状与挑战 02 内容搜索优化实践 03 内容搜索总结与展望 2
3. 目录 01 内容搜索业务现状与挑战 02 内容搜索优化实践 03 内容搜索总结与展望 3
4. 内容搜索业务场景 搜索结果页 内容详情页 交易 种草 分享 建设本地吃喝玩乐社区 Ø 起步期 – 从无到有,搭建框架 Ø 探索期 – 探索需求,夯实基建 Ø 进攻期 – 对齐思路,正向循环 辅助用户决策,促进社区氛围 十亿量级供给池,日均数亿消费 4
5. 业务飞轮 更好体验 用户访谈原声 更多内容 更多流量 女/20-24岁:搜索时可以看到一些视频和图文体验分享,出去玩之前做做攻略、排 排雷,比自己对朋友说更有说服力 男/24-28岁:前阵子去拉萨玩也在点评上搜笔记做攻略,感觉里面内容心得体验写 得不错,比较真实,不会有很强的营销感 更多作者 5
6. 行业对比 搜索类型 网页搜索 电商搜索 商户搜索 内容搜索 优化目标 搜索满意度 商品交易总额GMV 意向率 满意度/渗透/交互/时长 位置约束 弱 弱 强 区域限制强 供给类型 单一 单一 单一 笔记/评价/攻略/菜谱… 结构化程度 低 高 高 图片/视频/文本 作者/关联商户/话题/活动… 供给规模 大 中 小 大 更新频率 快 中 慢 快 6
7. 困难与挑战 01 02 03 04 内容类型多样,半结构化特点 多种类型供给并存,内容中关联商户、团单 用户行为相对稀疏,地域限制较强 海量供给更新频繁导致行为分散,分发上有很强的地域蜂窝限制 渗透与体验兼顾,多个维度平衡 既要追求内容渗透,也要兼顾搜索满意度,需要综合考虑 混排分发场景,协同提供价值 搜索结果中内容与商户、团单等混排,共同满足需求 7
8. 目录 01 内容搜索业务现状与挑战 02 内容搜索优化实践 03 内容搜索总结与展望 8
9. 优化思路 困难挑战 重点项目 链路环节 内容类型多样, 半结构化特点 内容理解 供给理解 用户行为稀疏, 地域限制较强 亿级别 供需匹配 召回海选 万级别 粗排优选 千级别 渗透与体验兼 顾,多维平衡 满意度优化 多目标融合 精排 建模 满意度 建模 融合排序 混排分发场景, 协同提供价值 异构混排 异构排序 数百 数十 9
10. 供给理解 类目标签 前后台类目映射、灵活配置 细粒度标签 主题、概念、层次关联组合 属性标签 内容审核、生态治理、去重过滤 分发周期、质量等级 描述主体、体裁分类 营销治理、关联挖掘 …… 10
11. 供给理解 11
12. 召回优化 12
13. 召回优化 语义召回 Ø 提高召回丰富度和复杂长尾搜索请求的语义理解能力 Ø 基于LLM及线上日志构造对比学习困难样本 Ø 相关性模型对样本进行清洗 Query-BERT [CLS] T ... T Doc-BERT Query [CLS] 个性化召回 Ø 结果丰富时满足个性化偏好,结果不足时泛化推荐 Ø 正样本融入点击 Ø 负样本随机采样 Fusion Encoder T ... Query T ... T 商户 + 内容文本 MLP Query-BERT [CLS] T T Vec User特征 13
14. 排序优化 – 粗排 14
15. 排序优化 – 粗排 模型能力与性能平衡 链路架构升级 表征、分数、顺序多层蒸馏 双塔、三塔 、NN,引入交叉信息 15
16. 排序优化 – 精排 特征重要度建模,样本粒度的动态 Embedding刻画,提升表达能力 表征层 序列建模:搜索词感知的兴趣建模, 兼顾个性化和相关性 搜索词:多粒度语义网络 多模态预训练:搜索场景端到端降维网络 16
17. 排序优化 – 精排 多目标建模 个性化网络, 缓解多任务跷跷板效应 建模层 17
18. 排序优化 – 精排 Listwise LambdaLoss+排序和校准联合建模 基于对抗梯度的探索网络,不确定性 预估结构,促进新/长尾内容探索 输出层 18
19. 满意度优化 相关性 …… 负向体验 时效性 正向满意度 地域性 Side By Side 内容质量 NPS调研 …… 19
20. 满意度优化 – 相关性 过滤打压 档内排序 信息输出 20
21. 满意度优化 – 时效性 建模方案 • 通过离线多来源的挖掘任务建设热点事件库 • 线上结合Query与热点库的文本和语义匹配关系 突发时效性 周期时效性 进行热点识别,并使用独立的热点召回通道承接 • 结合线上用户点击反馈信息修正误识别问题 21
22. 满意度优化 – 大模型辅助标注 人工标注 大模型标注 成本 & 效率 高 低 准确率 高 较高 标注维度 相关性 时效性 地 域性 内容质量 相关性 时效性 地 域性 内容质量 +个性化 稳定性 低 高 受标注人员变动及主观判断影响 可结合用户前后行为数据进行更细致的分析 22
23. 满意度优化 – 大模型辅助标注 Stage1:意图判定 Input:搜索词,场景信息 Output:搜索意图 体验标注样本 LLM标注结果 Query:早餐 搜索词的意图是寻找早餐的相关信息, 比如关于上海本地的早餐店和特色早餐 的介绍。 内容结果: • • Stage2:满意度评分 • Input:搜索词,搜索意图,用户信息,评估内容 正文、图片、关联商户信息 Output:各维度打分及总分 • 搜索结果是关于江桥万达金街的美食 街介绍,其中包括了一些早餐的选择, 如炸蛋葱油饼等。 从相关性来看,与搜索词有一定的相 关性,但并没有全面覆盖到早餐的各 种选择,而且信息主要集中在江桥万 达金街,对于想要了解更多早餐选择 的用户来说,可能满足度不高。 从时效性来看,搜索结果的发布时间 与当前时间较为接近,时效性较好。 从信息价值来看,搜索结果提供了一 些早餐的选择和地点信息,对于在江 桥万达金街附近的用户来说,信息价 值较高,但对于其他地区的用户来说, 信息价值可能较低。 综合考虑,我对这个搜索结果的满意度 评判是满足部分需求。 23
24. 多目标融合 24
25. 多元异构排序 流量随时间分布 内容点击趋势 追求整体收益最大化 端到端建模、融合校准、生成式组合 峰谷差异,动态适配 25
26. 目录 01 内容搜索业务现状与挑战 02 内容搜索优化实践 03 内容搜索总结与展望 26
27. 内容搜索总结 业务层面 Ø 在搜索综合结果、笔记页面等多个场景上线 Ø 用户体验和渗透率持续上升 探索期 技术层面 进攻期 Ø 在POI体系之外,构建内容搜索分发能力 Ø 针对站内需求特点,进行定制化优化 Ø 搜推联动,拉动内容心智,培养使用习惯 27
28. 内容搜索展望 业务层面 Ø 本地生活信息领域,形成体验优势 Ø 站内外各渠道结合,拉动增长 技术层面 Ø 建立体验问题自动发现机制,指导供给运营 Ø 推动大模型在各环节应用,扎实落地 Ø 提升全链路时效与性能,提高上限 28
29. Q&A 岗位热招 交流学习 29
30. 招聘:搜索算法岗位 邮箱:yifan.yang@meituan.com 更多技术干货 欢迎关注“美团技术团队”

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-17 18:31
浙ICP备14020137号-1 $Map of visitor$