360搜索质量 意图识别的智能化测试

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2.
3.
4. O1 O2 O3 搜索引擎和意图识别 意图识别的难点 意图识别的方法 O4 在线 和 离线 意图识别
5. 一. 搜索引擎和意图识别
6. 1.1 搜索引擎的技术发展历史
7. 1.2 搜索引擎的 3个目标 和 3个核心问题
8. 1.3 主流搜索引擎的整体架构
9. 1.4 搜索质量面临的问题
10. 1.5 搜索结果不相关的原因分析
11. 1.6 360搜索质量 自动化分析平台 – 按照意图划分模块
12. 1.7 360搜索 VS 竞品搜索 的质量对比流程 – 对query意图分类
13. 1.8 360搜索质量的传统分析 VS 自动化分析(对query意图识别)
14. 1.9 什么是意图识别?
15. 1.10 意图识别实现方式:通用搜索 和 垂直搜索
16. 1.11 意图识别实现方式:通用搜索 的 案例 通用搜索query: 北京到杭州的火车票
17. 1.12 意图识别实现方式:垂直搜索 的 案例 垂直搜索query: 北京到杭州的火车票
18. 1.13 搜索意图识别的解决方案 (1). 通用搜索 和 垂直搜索的对比? (a). 通用搜索的展示方式有很强局限性,对于特定领域的表述能力有限,对 特殊领域针对性差,但通用性好; (b). 垂直搜索的展示方式是针对性展示,对特定领域展现方式友好,并有相 应的筛选方式,但通用性差。 (2).意图识别的解决方案? 通用搜索引擎+垂直搜索引擎
19. 二. 意图识别的难点
20. 2.1 搜索意图识别的难点1 – 输入不规范 输入方式多样化,而且非常不规范,有堆砌关键词、自然语言查询、非标准自然语言。 例如 360搜索 用户的实际搜索词部分如下: (1). 360浏览器 最新下载 (5). 下载一个360浏览器最新的 (2). 我要下载最新版的360浏览器 (6). 哪里有win11版360浏览器 (3). 我要下载浏览器360的最新的 (7). 下载360浏览器13.1版本 (4). 下载最新版的浏览器360 (8). 按照360极速浏览器的最新版本
21. 2.2 搜索意图识别的难点2 – 多意图 对于一个 搜索词,在大多数情况下它都包含不只一个检索意图,而且这些意图可能是 毫无关联的。 例如query:使命召唤 意图1: 游戏?-> 游戏软件? -> 攻略查询?-> 秘籍查询? -> 游戏新闻? … 意图2: 美国电影?-> 电影下载? -> 在线观看?-> 查看影评? -> 剧情介绍? … 意图3: 电视剧? -> 电视剧下载? -> 相关新闻?-> 演职员表? -> 角色介绍? … 意图4: 音乐?-> 歌曲下载? -> 歌曲播放?-> 歌词下载? -> 歌曲原唱? … 意图5: 小说?-> 在线阅读? -> 小说下载?-> 正版小说? -> 小说作者? …
22. 2.3 搜索意图识别的难点3 – 意图强度 对于多意图的 搜索词,需要给意图排序,来确定哪 些是主要意图,哪些是次要意图。 例如query:马可波罗 意图1:马可波罗电子商务平台 (50%) 意图2:马可波罗瓷砖官网 (20%) 意图3:马可波罗百科需求 (10%) 意图4:马可波罗公司ipo新闻 (5%) …………
23. 2.4 搜索意图识别的难点4 – 结果可靠性 供我们获取搜索结果的这些垂直站点往往是一些中小型的网站,我们需要保证搜 索结果的 准确性、相关性、可访问。 例如query:铁雨2 在线观看 预期结果:返回 《铁雨2:首脑峰会》可以在线观看的完整版电影视频资源 实际返回: 结果1:点击rank1的结果页,提示 “无法显示此网页” 结果2: rank2属于百家号的新闻网页,没有视频资源,不符合预期。 结果3:点击rank1的结果页,显示网页属于404. 结果4: rank4网页被黑 …………
24. 2.5 搜索意图识别的难点5 – 时效性 搜索词的意图是有时效性的,是会随着时间变化的,我们需要保证我们的意图识别结 果是符合当前的实际情况的。 假设 query:iphone13 上市时间 中国 (1). 2021年8月1日的查询意图: 新闻(90%)、百科(10%) (2). 2021年9月20日的查询意图:新闻(65%)、购买(30%) 、百科(5%) (3). 2022年6月1日的查询意图: 购买(60%)、其他(30%) 、百科(10%) (4). 8年以后的查询意图: 百科(90%) 、其他(10%)
25. 三. 意图识别的方法
26. 3.1 搜索意图识别的方法1 – 词表穷举法
27. 3.2 搜索意图识别的方法2 – 规则解析法 适用于一些搜索虽然不集中但是非常符合规则的类别,通过规则解析查询来做意图识别和关键信息提取的,最典型的就是 Onebox 类意图,例如 汇率查询、计算器、单位换算等Onebox。 例如搜索词query: 400港币可以换多少人民币? [400] [港币] [今天] 可以换多少 [人民币]? [数字] [货币单位] [日期] 可以换多少 [货币单位]? 解析: 数字:400 原货币:港币 目的货币:人民币 优缺点:信息提取准确,配合简单类别识别 模型可以得到较不错的识别精度, 只适用于规则性较强的类别。
28. 3.3 搜索意图识别的方法2 – 规则解析法 – 360搜索 Onebox 意图识别 360搜索 Onebox 意图识别的 整体架构 如下图:
29. 3.4 搜索意图识别的方法3 – 统计模型分类法 – 搜索词分类 搜索词分类:基于搜索词本身的分类,也就是建立基于表面意思的统计分类模型。 搜索词 分类如下图:
30. 3.5 搜索意图识别的方法3 – 统计模型分类法 – 搜索词扩展分类 搜索词扩展分类:基于搜索词的扩展信息的分类,也就是基于社会知识的分离,通 常是搜索结果的扩展。 搜索词 扩展分类如下图:
31. 3.6 搜索意图识别的方法3 – 统计模型分类法 的优缺点 统计模型分类法的优缺点:  实现较为复杂,数据获取困难,数据更新困难,  但效果较好、稳定性好、通用性好,在持续更新语料的情况下,可以通 过流程自动更新。
32. 四. 在线 和 离线 意图识别
33. 4.1 用户搜索意图的分类
34. 4.2 搜索意图识别的技术原理1 –点击图 – 点击日志案例 典型的360搜索 点击日志如下图:
35. 4.3 搜索意图识别的技术原理1 –点击图 – 案例
36. 4.4 搜索意图识别的技术原理2 – 相关搜索
37. 4.5 搜索意图识别的技术原理2-相关搜索 – 基于查询会话的方法
38. 4.6 搜索意图识别的技术原理2 – 相关搜索 – 基于点击图的方法
39. 4.7 搜索 “在线”意图识别 的 实现方案、代码、案例 4.7.1 搜索 在线意图识别的实现方案:
40. 4.7.2 搜索 “在线”意图识别 的 代码
41. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
42. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
43. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
44. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
45. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
46. 4.8 传统方案: “在线”意图识别 的缺点 同时对标多家竞品搜索 缺点:竞品抓取有限制, 理论上每天抓取竞品不超 过2万query的结果页。 人工分析query意图 缺点:效率太慢,无法满足搜 索漏召回中 50万个query的的 意图分析需求。 判断大搜rank=1的结果 缺点:360搜索rank=1的 结果不一定满足用户的真 实意图,并且需要请求线 上搜索服务,但是线上抓 取有限制。 请求线上qwrt意图接口 缺点:会给线上qwrt接口 带来多的网络请求,产生 较大的负面影响。
47. 4.9 创新方案 :“离线” 意图识别 的 2个方案 方案1:历史离线意图日志 方案2:历史搜索点击日 志 能够识别 问答等10大类意图 基于top pv中rank=1的URL 可以实现 81.21% PV的意图识别 不需要请求 线上意图接口 可以实现 18.79% PV的意图识别 不需要请求 线上360搜索服务
48. 4.10 创新方案:“离线”意图识别 的流程图、代码、案例 4.10.1 创新方案:“离线”意图识别 的流程图
49. 4.10.2 创新方案:“离线”意图识别 的代码
50. 4.10.3 创新方案:“离线”意图识别 的案例
51. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
52. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
53. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
54. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
55. 4.11 “在线”意图识别 和 “离线”意图识别的方案对比
56. 360技术 THANKS 360质量效能

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-16 02:44
浙ICP备14020137号-1 $Map of visitor$