Spark 在反作弊聚类场景的实践

文章
文稿
书库
图册

Spark 在反作弊聚类场景的实践

出处：zhuanlan.zhihu.com

摘要

知乎最近开始尝试使用聚类的方式去发现和挖掘spam用户。聚类的目的是将相似的内容和行为聚集在一起。常见的聚类方法有k-means、层次聚类以及基于密度和图的聚类分析方案。相似度的度量是聚类的关键之一，常用的相似度算法有edit distance、cosine similarity、Jaccard相似度和pearson相关系数等。本次聚类使用了Jaccard和sim-hash算法，其中sim-hash适用于数据量较大的场景。sim-hash的计算过程包括词的hash值计算、加权、合并、降维和相似度比较。相似度比较使用hamming distance来衡量。

阅读原文

xiaozi 于 2024-06-29 分享

5880

关联话题： #知乎 #Spark

欢迎在评论区写下你对这篇文章的看法。

Spark 在反作弊聚类场景的实践

Spark 在反作弊聚类场景的实践

摘要

评论

文库