文本向量的长度偏差及其在搜索中的影响

摘要

文本向量模型在语义相似度测量中存在长度偏差,长文本的相似度得分往往更高,即使内容不相关。余弦相似度无法直接判断相关性,只能反映相对相似度。实验表明,文档越长,余弦相似度越高,句子间相似度则较低。非对称编码虽能改进信息检索,但无法消除长度偏差。建议结合重排器或大模型评估相关性,而非依赖单一阈值。

欢迎在评论区写下你对这篇文章的看法。

评论

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.143.0. UTC+08:00, 2025-04-28 21:03
浙ICP备14020137号-1 $お客様$