话题公司 › 丁香园

公司:丁香园

丁香园(DXY),始建于2000年7月23日,创办者李天天,是一个医学知识分享网站。该网站曾于2014年9月2日获得腾讯公司7000万美元投资。

从文本匹配到语义相关——新闻相似度计算的一般思路

文本相似是NLP工业化中的一个基本任务,很多应用需要计算两文本之间的相似程度,包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别:如根据文本长度的不同,可分为短文本相似度(短语/句子级)和长文本相似度(段落/文章级);又如根据特征工程的构建方式不同,可分基于统计特征生成(TF/TF-IDF/Simhash)和基于语义的特征模型(word2vec、doc2vec)。同样相似度的计算方式也有多种,如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

聊聊电商搜索的语义理解问题

聊一聊大数据时代的电商搜索问题,如何构建商品向量、如何解决搜索词与商品名称之间的语义鸿沟问题、如何解决店铺特征稀疏等问题以及如何给用户推荐合适的商品。

如何扩充知识图谱中的同义词

同义词作为知识图谱的组成部分,在Query解析、扩展查询等搜索推荐场景起到重要的作用。本文探讨了同义词挖掘的一般思路,以及目前学术界的研究现状。

医疗搜索中的query词权重算法探索

本文介绍了基于不同策略的query词权重算法,并制定了符合丁香园医疗搜索场景的算法方案。

搜索中的Query扩展技术

Query扩展是搜索优化工作中重要的一部分,本文介绍了Query扩展的基本思路和实施方法,以及在丁香园业务场景中的简单实践。

ACL 2021 | 丁香园知识增强预训练模型

使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中,引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队,在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下,首次将知识图谱中的医学实体,连同实体关系中的结构化语义信息,同时引入到预训练模型中。利用该预训练模型,在下游包括MRC、语义匹配、NER等任务都带来指标提升。

中文NER碎碎念—聊聊词汇增强与实体嵌套

各平台关于NER技术介绍的文章已经非常多,本文并不以指标增长为目标,而是从先验知识融合与嵌套实体问题两方面讨论,希望可以从这两个方向的工作中获得解决其他问题的启发

医疗领域情感分析

不同于电商和微博,丁香医生平台下的评论数据,除了询问病情相关的留言,还有用户对文章的见解(如:赞同或质疑科普知识)。而评论对象除了具体的事物,还有疾病症状这类情感倾向不定的实体。本文从四个方向阐述如何优化医疗领域的情感分析模型。

搜索中的Query扩展技术(二)

Query扩展是搜索技术中重要的组成之一,本文探讨了当Query较长时,我们除了处理实体词,还需要注意些什么。

医疗健康领域的短文本解析探索(三) ----文本纠错

今有一花厂小码农,正值壮年,浸淫nlp数载,得大佬一任务,委以纠错之重任!定当不负众望,鞠躬尽瘁。而后废寝忘食,挑灯夜读,钻研二十余日...卒!

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-19 19:45
浙ICP备14020137号-1 $访客地图$