文本向量的长度偏差及其在搜索中的影响 - オンラインツール

オンラインツール

オンラインツール

ランキングリスト

反馈

オンラインツール

ホーム話題

ライブラリ自分

詳細表示

文本向量的长度偏差及其在搜索中的影响

出处：mp.weixin.qq.com

摘要

文本向量模型在语义相似度测量中存在长度偏差，长文本的相似度得分往往更高，即使内容不相关。余弦相似度无法直接判断相关性，只能反映相对相似度。实验表明，文档越长，余弦相似度越高，句子间相似度则较低。非对称编码虽能改进信息检索，但无法消除长度偏差。建议结合重排器或大模型评估相关性，而非依赖单一阈值。

阅读原文

胡永登于 2025-04-17 分享

304

欢迎在评论区写下你对这篇文章的看法。

评论

据说喜欢分享的,后来都成了大神

国别域名注册8折优惠

vultr activity

tencent

明日复明日明日何其多！既然这么多，不妨再拖拖。

文库

更多

ホーム - Wiki
Copyright © 2011-2025 iteam. Current version is 2.143.0. UTC+08:00, 2025-04-28 21:03
浙ICP备14020137号-1 $お客様$