题拍拍高精度的题目搜索系统的探索与实践
摘要
大家常用的网页搜索引擎帮助用户从海量的数据中找到自己需要的文章,在此过程中需要解决的三个核心问题:相关性,质量,流行度,在相关的结果中将质量权威性和流行度最好的结果展示在首位。拍题搜索同样类似于搜索引擎,用户的Query通过OCR部分转换成文本参与文本检索,无法转换成文本的几何图形通过深度学习模型编码成向量参与向量检索,并将文本检索和向量检索得到的结果进行归并排序。拍题搜索必须在相同的结果中选择质量最好的放到首位。于是在Query理解、相关性计算和排序算法上需要不同的处理方式。
拍题搜索和通用搜索相比,在数据规模和丰富程度上相对较小,可以在准确性方面做出更多针对性处理,因此在搜题领域超越通用网页搜索引擎是我们的设计目标。
欢迎在评论区写下你对这篇文章的看法。