开发常见的 Hash 函数 (三)-Minhash_Simhash

摘要

Simhash和Minhash是用于比较大文本相似性的算法。它们通过对特征向量集进行运算来判断文本的相似度。Simhash和Minhash都支持k-shingle的运算。对于相似性的定义,如果是纯粹的文字/内容相似,Minhash更适用;如果是打乱文字/句子顺序或者词重合度高的情况,Simhash更合适。Simhash和Minhash的结果不受特征输入顺序影响。图片相似计算的内容在下一篇文章中。

欢迎在评论区写下你对这篇文章的看法。

评论

Главная - Вики-сайт
Copyright © 2011-2024 iteam. Current version is 2.139.0. UTC+08:00, 2024-12-26 16:20
浙ICP备14020137号-1 $Гость$