类库
› semhash
MinishLab/semhash
SemHash是一个轻量级多模态库,专门用于语义去重、异常值过滤和代表性样本选择。该库支持文本(使用快速Model2Vec嵌入)、图像、音频等多种数据模态,能处理单数据集清理和跨数据集去重任务,并集成高效相似性搜索工具以提高性能。
SemHash是一个轻量级多模态库,专门用于语义去重、异常值过滤和代表性样本选择。该库支持文本(使用快速Model2Vec嵌入)、图像、音频等多种数据模态,能处理单数据集清理和跨数据集去重任务,并集成高效相似性搜索工具以提高性能。