从文本匹配到语义相关——新闻相似度计算的一般思路

出处：mp.weixin.qq.com

摘要

文本相似是NLP工业化中的一个基本任务，很多应用需要计算两文本之间的相似程度，包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别：如根据文本长度的不同，可分为短文本相似度（短语/句子级）和长文本相似度（段落/文章级）；又如根据特征工程的构建方式不同，可分基于统计特征生成（TF/TF-IDF/Simhash）和基于语义的特征模型（word2vec、doc2vec）。同样相似度的计算方式也有多种，如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

阅读原文

xiaozi 于 2022-08-02 分享

6223

关联话题： #丁香园 #BERT

欢迎在评论区写下你对这篇文章的看法。

从文本匹配到语义相关——新闻相似度计算的一般思路

从文本匹配到语义相关——新闻相似度计算的一般思路

摘要

评论

文库