数据结构与算法:哈希算法
使用 MinHash 进行文本去重
本文的主要内容是介绍如何基于文章《BigCode 背后的大规模数据去重》提到的方法构建一个能够对中文文本进行去重的 MinHash 方案实现。
开发常见的Hash函数(三)-Minhash_Simhash
Simhash和Minhash是用于比较大文本相似性的算法。它们通过对特征向量集进行运算来判断文本的相似度。Simhash和Minhash都支持k-shingle的运算。对于相似性的定义,如果是纯粹的文字/内容相似,Minhash更适用;如果是打乱文字/句子顺序或者词重合度高的情况,Simhash更合适。Simhash和Minhash的结果不受特征输入顺序影响。图片相似计算的内容在下一篇文章中。
Simhash在内容去重中的应用
信息流个性化推荐场景中依赖爬虫抓取的海量新闻库,这些新闻中不乏互相抄袭的新闻,这些内容相似的文章,会造成内容的同质化并加重数据库的存储负担,更糟糕的是降低了信息流内容的体验。所以需要一种准确高效的文本去重算法。而最朴素的做法就是将所有文本进行两两比较,简单易理解,最符合人类的直觉,这种做法对于少量文本来说,实现起来很方便,但是对于海量文本来说是行不通的,所以应在尽可能保证准确性的同时,降低算法的时间复杂度。事实上,传统比较两个文本相似性的方法,大多是将文本分词之后,转化为特征向量距离的度量,比如常见的欧氏距离、海明距离或者余弦角度等等。下面以余弦相似度和simhash算法为例做简单介绍。
感知哈希-图片相似度分析
感知哈希是使用指纹算法生成各种形式的多媒体的片段、哈希或指纹。感知哈希是一种局部敏感哈希,如果多媒体的特征相似,则它是类似的。
New zoom freezing feature for Geohash plugin
Geohash is an encoding system with a unique identifier for each region on the planet. Therefore, all geohash units can be associated with an individual set of digits and letters.
Geohash is a plugin built by Grab that is available in the Java OpenStreetMap Editor (JOSM) tool, which comes in handy for those who work on precise areas based on geohash units.
一致性哈希算法应用
本文将结合MySQL分区表功能重点介绍一致性哈希算法以及其他一些哈希算法的特性和在分区表中的使用。
移动端图像相似度算法选型
电商场景中,卖家为获取流量常出现重复铺货现象。当用户发布上传图像或视频时,在客户端进行图像特征提取和指纹生成,再将其上传至云端指纹库对比后,找出相似图片,杜绝重复铺货造成的计算及存储资源浪费。
相似图像的检测方法
以图搜图,是日常生活中我们经常会用到,例如在选购一款商品时,想要对比价格,往往会在各个购物app上通过搜图的形式来看同一款产品的价格;当你碰到某种不认识的植物时,也可以通过以图搜图的方式来获取该种植物的名称。而这些功能大都是通过计算图像的相似度来实现的。通过计算待搜索图片与图片数据库中图片之间的相似度,并对相似度进行排序为用户推荐相似图像的搜索结果。同时,通过检测图片是否相似也可用于判断商标是否侵权,图像作品是否抄袭等。本文将介绍几种比较常用的相似图像检测方法,其中包括了基于哈希算法,基于直方图,基于特征匹配,基于BOW+Kmeans以及基于卷积网络的图像相似度计算方法。
基于快速GeoHash,如何实现海量商品与商圈的高效匹配?
10亿条商品和1万条商圈数据做匹配,1天内可得到结果。
洗稿,技术上怎么判断文章相似性?
原创花了5个小时,5K阅读。洗稿花了10分钟,5W+阅读,原创作者会是什么感受?
相似图片检测:pHash算法
检查两个图片的相似度,一个简单而快速的算法:感知哈希算法(Perceptual Hash),通过某种提取特征的方式为每个图片计算一个指纹(哈希),这样对比两个图片相似与否就变成了对比两个指纹异同的问题。 实现 Step1.缩小尺寸 将图片缩小到8*8的大小,这样做可以去除图片的细节,只保
高效的多维空间点索引算法 — Geohash 和 Google S2
引子 每天我们晚上加班回家,可能都会用到滴滴或者共享单车。打开 app 会看到如下的界面: app 界面上会显示出自己附近一个范围内可用的出租车或者共享单车。假设地图上会显示...
一致性哈希算法的理解与实践
一致哈希算法的实现原理是将节点映射到一个环上,根据节点的哈希值确定节点在环上的位置。然而,观察实验结果发现,一致哈希算法在数据项分布的均匀性方面存在问题,导致节点在环上的区间大小不一,造成数据分布不均匀。这可能是因为节点的哈希值在环上分布不均匀所导致的。
GeoHash核心原理解析
这篇文章介绍了GeoHash算法的原理和应用。GeoHash是一种将经纬度转换成字符串的方法,通过字符串的前缀匹配来计算距离。在查询附近餐馆的案例中,将所在位置的经纬度转换成GeoHash字符串,并与各个餐馆的GeoHash字符串进行匹配,匹配越多表示距离越近。文章还详细介绍了GeoHash算法的计算步骤,以北海公园为例进行了说明。
一致性哈希算法及其在分布式系统中的应用
本文将会从实际应用场景出发,介绍一致性哈希算法(Consistent Hashing)及其在分布式系统中的应用。首先本文会描述一个在日常开发中经常会遇到的问题场景,借此介绍一致性哈希算法以及这个算法如何解决此问题;接下来会对这个算法进行相对详细的描述,并讨论一些如虚拟节点等
- «
- 1
- »