360搜索质量意图识别的智能化测试

1.

2.

3.

4. O1 O2 O3 搜索引擎和意图识别意图识别的难点意图识别的方法 O4 在线和离线意图识别

5. 一. 搜索引擎和意图识别

6. 1.1 搜索引擎的技术发展历史

7. 1.2 搜索引擎的 3个目标和 3个核心问题

8. 1.3 主流搜索引擎的整体架构

9. 1.4 搜索质量面临的问题

10. 1.5 搜索结果不相关的原因分析

11. 1.6 360搜索质量自动化分析平台 – 按照意图划分模块

12. 1.7 360搜索 VS 竞品搜索的质量对比流程 – 对query意图分类

13. 1.8 360搜索质量的传统分析 VS 自动化分析(对query意图识别)

14. 1.9 什么是意图识别？

15. 1.10 意图识别实现方式：通用搜索和垂直搜索

16. 1.11 意图识别实现方式：通用搜索的案例通用搜索query: 北京到杭州的火车票

17. 1.12 意图识别实现方式：垂直搜索的案例垂直搜索query: 北京到杭州的火车票

18. 1.13 搜索意图识别的解决方案 (1). 通用搜索和垂直搜索的对比？ (a). 通用搜索的展示方式有很强局限性，对于特定领域的表述能力有限，对特殊领域针对性差，但通用性好； (b). 垂直搜索的展示方式是针对性展示，对特定领域展现方式友好，并有相应的筛选方式，但通用性差。 (2).意图识别的解决方案？通用搜索引擎+垂直搜索引擎

19. 二. 意图识别的难点

20. 2.1 搜索意图识别的难点1 – 输入不规范输入方式多样化，而且非常不规范，有堆砌关键词、自然语言查询、非标准自然语言。例如 360搜索用户的实际搜索词部分如下： (1). 360浏览器最新下载 (5). 下载一个360浏览器最新的 (2). 我要下载最新版的360浏览器 (6). 哪里有win11版360浏览器 (3). 我要下载浏览器360的最新的 (7). 下载360浏览器13.1版本 (4). 下载最新版的浏览器360 (8). 按照360极速浏览器的最新版本

21. 2.2 搜索意图识别的难点2 – 多意图对于一个搜索词，在大多数情况下它都包含不只一个检索意图，而且这些意图可能是毫无关联的。例如query：使命召唤意图1: 游戏？-> 游戏软件？ -> 攻略查询？-> 秘籍查询？ -> 游戏新闻? … 意图2: 美国电影？-> 电影下载？ -> 在线观看？-> 查看影评？ -> 剧情介绍? … 意图3: 电视剧？ -> 电视剧下载？ -> 相关新闻？-> 演职员表？ -> 角色介绍? … 意图4: 音乐？-> 歌曲下载？ -> 歌曲播放？-> 歌词下载？ -> 歌曲原唱? … 意图5: 小说？-> 在线阅读？ -> 小说下载？-> 正版小说？ -> 小说作者? …

22. 2.3 搜索意图识别的难点3 – 意图强度对于多意图的搜索词，需要给意图排序，来确定哪些是主要意图，哪些是次要意图。例如query：马可波罗意图1：马可波罗电子商务平台 (50%) 意图2：马可波罗瓷砖官网 (20%) 意图3：马可波罗百科需求 (10%) 意图4：马可波罗公司ipo新闻 (5%) …………

23. 2.4 搜索意图识别的难点4 – 结果可靠性供我们获取搜索结果的这些垂直站点往往是一些中小型的网站，我们需要保证搜索结果的准确性、相关性、可访问。例如query：铁雨2 在线观看预期结果：返回《铁雨2:首脑峰会》可以在线观看的完整版电影视频资源实际返回：结果1：点击rank1的结果页，提示 “无法显示此网页” 结果2： rank2属于百家号的新闻网页，没有视频资源，不符合预期。结果3：点击rank1的结果页，显示网页属于404. 结果4： rank4网页被黑 …………

24. 2.5 搜索意图识别的难点5 – 时效性搜索词的意图是有时效性的，是会随着时间变化的，我们需要保证我们的意图识别结果是符合当前的实际情况的。假设 query：iphone13 上市时间中国 (1). 2021年8月1日的查询意图：新闻(90%)、百科(10%) (2). 2021年9月20日的查询意图：新闻(65%)、购买(30%) 、百科(5%) (3). 2022年6月1日的查询意图：购买(60%)、其他(30%) 、百科(10%) (4). 8年以后的查询意图：百科(90%) 、其他(10%)

25. 三. 意图识别的方法

26. 3.1 搜索意图识别的方法1 – 词表穷举法

27. 3.2 搜索意图识别的方法2 – 规则解析法适用于一些搜索虽然不集中但是非常符合规则的类别，通过规则解析查询来做意图识别和关键信息提取的，最典型的就是 Onebox 类意图，例如汇率查询、计算器、单位换算等Onebox。例如搜索词query: 400港币可以换多少人民币？ [400] [港币] [今天] 可以换多少 [人民币]？ [数字] [货币单位] [日期] 可以换多少 [货币单位]？解析：数字：400 原货币：港币目的货币：人民币优缺点：信息提取准确，配合简单类别识别模型可以得到较不错的识别精度，只适用于规则性较强的类别。

28. 3.3 搜索意图识别的方法2 – 规则解析法 – 360搜索 Onebox 意图识别 360搜索 Onebox 意图识别的整体架构如下图：

29. 3.4 搜索意图识别的方法3 – 统计模型分类法 – 搜索词分类搜索词分类：基于搜索词本身的分类，也就是建立基于表面意思的统计分类模型。搜索词分类如下图：

30. 3.5 搜索意图识别的方法3 – 统计模型分类法 – 搜索词扩展分类搜索词扩展分类：基于搜索词的扩展信息的分类，也就是基于社会知识的分离，通常是搜索结果的扩展。搜索词扩展分类如下图：

31. 3.6 搜索意图识别的方法3 – 统计模型分类法的优缺点统计模型分类法的优缺点：  实现较为复杂，数据获取困难，数据更新困难，  但效果较好、稳定性好、通用性好，在持续更新语料的情况下，可以通过流程自动更新。

32. 四. 在线和离线意图识别

33. 4.1 用户搜索意图的分类

34. 4.2 搜索意图识别的技术原理1 –点击图 – 点击日志案例典型的360搜索点击日志如下图：

35. 4.3 搜索意图识别的技术原理1 –点击图 – 案例

36. 4.4 搜索意图识别的技术原理2 – 相关搜索

37. 4.5 搜索意图识别的技术原理2-相关搜索 – 基于查询会话的方法

38. 4.6 搜索意图识别的技术原理2 – 相关搜索 – 基于点击图的方法

39. 4.7 搜索 “在线”意图识别的实现方案、代码、案例 4.7.1 搜索在线意图识别的实现方案：

40. 4.7.2 搜索 “在线”意图识别的代码

41. 4.7.3 搜索“在线”意图识别的案例 – 精选摘要(问答) 意图识别

42. 4.7.3 搜索“在线”意图识别的案例 – 精选摘要(问答) 意图识别

43. 4.7.3 搜索“在线”意图识别的案例 – 精选摘要(问答) 意图识别

44. 4.7.3 搜索“在线”意图识别的案例 – 精选摘要(问答) 意图识别

45. 4.7.3 搜索“在线”意图识别的案例 – 精选摘要(问答) 意图识别

46. 4.8 传统方案： “在线”意图识别的缺点同时对标多家竞品搜索缺点：竞品抓取有限制，理论上每天抓取竞品不超过2万query的结果页。人工分析query意图缺点：效率太慢，无法满足搜索漏召回中 50万个query的的意图分析需求。判断大搜rank=1的结果缺点：360搜索rank=1的结果不一定满足用户的真实意图，并且需要请求线上搜索服务，但是线上抓取有限制。请求线上qwrt意图接口缺点：会给线上qwrt接口带来多的网络请求，产生较大的负面影响。

47. 4.9 创新方案：“离线” 意图识别的 2个方案方案1：历史离线意图日志方案2：历史搜索点击日志能够识别问答等10大类意图基于top pv中rank=1的URL 可以实现 81.21% PV的意图识别不需要请求线上意图接口可以实现 18.79% PV的意图识别不需要请求线上360搜索服务

48. 4.10 创新方案：“离线”意图识别的流程图、代码、案例 4.10.1 创新方案：“离线”意图识别的流程图

49. 4.10.2 创新方案：“离线”意图识别的代码

50. 4.10.3 创新方案：“离线”意图识别的案例

51. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别

52. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别

53. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别

54. 4.10.3 创新方案:“离线”意图识别案例-文库box query意图识别

55. 4.11 “在线”意图识别和 “离线”意图识别的方案对比

56. 360技术 THANKS 360质量效能

360搜索质量 意图识别的智能化测试

360搜索质量 意图识别的智能化测试

360搜索质量意图识别的智能化测试

360搜索质量意图识别的智能化测试