陌陌向量检索引擎工程实践
摘要
全球每天产生的数据中,有80%是非结构化数据,常见的非结构化数据包括语音、图片、视频和语言文字等。通过深度学习等技术训练得到的模型对非结构化数据进行特征提取,将非结构化数据转换成一个多维的向量,这个过程称作Embedding。多维向量本质上是对非结构化数据在高位空间的映射,而向量检索就是对这些生成的向量进行检索,从中找到最相似的若干个向量。
非结构化检索本质是向量检索技术,其主要的应用领域如人脸识别、推荐系统、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等。随着AI技术的广泛应用,以及数据规模的不断增长,向量检索也逐渐成了AI技术链路中不可或缺的一环,更是对传统搜索技术的补充,并且具备多模态搜索的能力。
欢迎在评论区写下你对这篇文章的看法。