从文本匹配到语义相关——新闻相似度计算的一般思路

摘要

文本相似是NLP工业化中的一个基本任务,很多应用需要计算两文本之间的相似程度,包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别:如根据文本长度的不同,可分为短文本相似度(短语/句子级)和长文本相似度(段落/文章级);又如根据特征工程的构建方式不同,可分基于统计特征生成(TF/TF-IDF/Simhash)和基于语义的特征模型(word2vec、doc2vec)。同样相似度的计算方式也有多种,如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

欢迎在评论区写下你对这篇文章的看法。

评论

Accueil - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 10:18
浙ICP备14020137号-1 $Carte des visiteurs$