360搜索质量 意图识别的智能化测试
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3.
4. O1 O2 O3
搜索引擎和意图识别 意图识别的难点 意图识别的方法
O4
在线 和 离线 意图识别
5. 一. 搜索引擎和意图识别
6. 1.1 搜索引擎的技术发展历史
7. 1.2 搜索引擎的 3个目标 和 3个核心问题
8. 1.3 主流搜索引擎的整体架构
9. 1.4 搜索质量面临的问题
10. 1.5 搜索结果不相关的原因分析
11. 1.6 360搜索质量 自动化分析平台 – 按照意图划分模块
12. 1.7 360搜索 VS 竞品搜索 的质量对比流程 – 对query意图分类
13. 1.8 360搜索质量的传统分析 VS 自动化分析(对query意图识别)
14. 1.9 什么是意图识别?
15. 1.10 意图识别实现方式:通用搜索 和 垂直搜索
16. 1.11 意图识别实现方式:通用搜索 的 案例
通用搜索query: 北京到杭州的火车票
17. 1.12 意图识别实现方式:垂直搜索 的 案例
垂直搜索query: 北京到杭州的火车票
18. 1.13 搜索意图识别的解决方案
(1). 通用搜索 和 垂直搜索的对比?
(a). 通用搜索的展示方式有很强局限性,对于特定领域的表述能力有限,对
特殊领域针对性差,但通用性好;
(b). 垂直搜索的展示方式是针对性展示,对特定领域展现方式友好,并有相
应的筛选方式,但通用性差。
(2).意图识别的解决方案?
通用搜索引擎+垂直搜索引擎
19. 二. 意图识别的难点
20. 2.1 搜索意图识别的难点1 – 输入不规范
输入方式多样化,而且非常不规范,有堆砌关键词、自然语言查询、非标准自然语言。
例如 360搜索 用户的实际搜索词部分如下:
(1). 360浏览器 最新下载 (5). 下载一个360浏览器最新的
(2). 我要下载最新版的360浏览器 (6). 哪里有win11版360浏览器
(3). 我要下载浏览器360的最新的 (7). 下载360浏览器13.1版本
(4). 下载最新版的浏览器360 (8). 按照360极速浏览器的最新版本
21. 2.2 搜索意图识别的难点2 – 多意图
对于一个 搜索词,在大多数情况下它都包含不只一个检索意图,而且这些意图可能是 毫无关联的。
例如query:使命召唤
意图1: 游戏?-> 游戏软件? -> 攻略查询?-> 秘籍查询? -> 游戏新闻? …
意图2: 美国电影?-> 电影下载? -> 在线观看?-> 查看影评? -> 剧情介绍? …
意图3: 电视剧? -> 电视剧下载? -> 相关新闻?-> 演职员表? -> 角色介绍? …
意图4: 音乐?-> 歌曲下载? -> 歌曲播放?-> 歌词下载? -> 歌曲原唱? …
意图5: 小说?-> 在线阅读? -> 小说下载?-> 正版小说? -> 小说作者? …
22. 2.3 搜索意图识别的难点3 – 意图强度
对于多意图的 搜索词,需要给意图排序,来确定哪
些是主要意图,哪些是次要意图。
例如query:马可波罗
意图1:马可波罗电子商务平台 (50%)
意图2:马可波罗瓷砖官网 (20%)
意图3:马可波罗百科需求 (10%)
意图4:马可波罗公司ipo新闻 (5%)
…………
23. 2.4 搜索意图识别的难点4 – 结果可靠性
供我们获取搜索结果的这些垂直站点往往是一些中小型的网站,我们需要保证搜
索结果的 准确性、相关性、可访问。
例如query:铁雨2 在线观看
预期结果:返回 《铁雨2:首脑峰会》可以在线观看的完整版电影视频资源
实际返回:
结果1:点击rank1的结果页,提示 “无法显示此网页”
结果2: rank2属于百家号的新闻网页,没有视频资源,不符合预期。
结果3:点击rank1的结果页,显示网页属于404.
结果4: rank4网页被黑
…………
24. 2.5 搜索意图识别的难点5 – 时效性
搜索词的意图是有时效性的,是会随着时间变化的,我们需要保证我们的意图识别结
果是符合当前的实际情况的。
假设 query:iphone13 上市时间 中国
(1). 2021年8月1日的查询意图: 新闻(90%)、百科(10%)
(2). 2021年9月20日的查询意图:新闻(65%)、购买(30%) 、百科(5%)
(3). 2022年6月1日的查询意图: 购买(60%)、其他(30%) 、百科(10%)
(4). 8年以后的查询意图:
百科(90%) 、其他(10%)
25. 三. 意图识别的方法
26. 3.1 搜索意图识别的方法1 – 词表穷举法
27. 3.2 搜索意图识别的方法2 – 规则解析法
适用于一些搜索虽然不集中但是非常符合规则的类别,通过规则解析查询来做意图识别和关键信息提取的,最典型的就是
Onebox 类意图,例如 汇率查询、计算器、单位换算等Onebox。
例如搜索词query: 400港币可以换多少人民币?
[400] [港币] [今天] 可以换多少 [人民币]?
[数字] [货币单位] [日期] 可以换多少 [货币单位]?
解析:
数字:400
原货币:港币
目的货币:人民币
优缺点:信息提取准确,配合简单类别识别
模型可以得到较不错的识别精度,
只适用于规则性较强的类别。
28. 3.3 搜索意图识别的方法2 – 规则解析法 – 360搜索 Onebox 意图识别
360搜索 Onebox 意图识别的 整体架构 如下图:
29. 3.4 搜索意图识别的方法3 – 统计模型分类法 – 搜索词分类
搜索词分类:基于搜索词本身的分类,也就是建立基于表面意思的统计分类模型。
搜索词 分类如下图:
30. 3.5 搜索意图识别的方法3 – 统计模型分类法 – 搜索词扩展分类
搜索词扩展分类:基于搜索词的扩展信息的分类,也就是基于社会知识的分离,通
常是搜索结果的扩展。
搜索词 扩展分类如下图:
31. 3.6 搜索意图识别的方法3 – 统计模型分类法 的优缺点
统计模型分类法的优缺点:
实现较为复杂,数据获取困难,数据更新困难,
但效果较好、稳定性好、通用性好,在持续更新语料的情况下,可以通
过流程自动更新。
32. 四. 在线 和 离线 意图识别
33. 4.1 用户搜索意图的分类
34. 4.2 搜索意图识别的技术原理1 –点击图 – 点击日志案例
典型的360搜索 点击日志如下图:
35. 4.3 搜索意图识别的技术原理1 –点击图 – 案例
36. 4.4 搜索意图识别的技术原理2 – 相关搜索
37. 4.5 搜索意图识别的技术原理2-相关搜索 – 基于查询会话的方法
38. 4.6 搜索意图识别的技术原理2 – 相关搜索 – 基于点击图的方法
39. 4.7 搜索 “在线”意图识别 的 实现方案、代码、案例
4.7.1 搜索 在线意图识别的实现方案:
40. 4.7.2 搜索 “在线”意图识别 的 代码
41. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
42. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
43. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
44. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
45. 4.7.3 搜索“在线”意图识别 的 案例 – 精选摘要(问答) 意图 识别
46. 4.8 传统方案: “在线”意图识别 的缺点
同时对标多家竞品搜索
缺点:竞品抓取有限制,
理论上每天抓取竞品不超
过2万query的结果页。
人工分析query意图
缺点:效率太慢,无法满足搜
索漏召回中 50万个query的的
意图分析需求。
判断大搜rank=1的结果
缺点:360搜索rank=1的
结果不一定满足用户的真
实意图,并且需要请求线
上搜索服务,但是线上抓
取有限制。
请求线上qwrt意图接口
缺点:会给线上qwrt接口
带来多的网络请求,产生
较大的负面影响。
47. 4.9 创新方案 :“离线” 意图识别 的 2个方案
方案1:历史离线意图日志 方案2:历史搜索点击日
志
能够识别 问答等10大类意图 基于top pv中rank=1的URL
可以实现 81.21% PV的意图识别
不需要请求 线上意图接口
可以实现 18.79% PV的意图识别
不需要请求 线上360搜索服务
48. 4.10 创新方案:“离线”意图识别 的流程图、代码、案例
4.10.1 创新方案:“离线”意图识别 的流程图
49. 4.10.2 创新方案:“离线”意图识别 的代码
50. 4.10.3 创新方案:“离线”意图识别 的案例
51. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
52. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
53. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
54. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别
55. 4.11 “在线”意图识别 和 “离线”意图识别的方案对比
56. 360技术
THANKS
360质量效能