在线工具

在线工具

反馈

文库码库小摊

更多

话题 › 公司 › 丁香园

公司：丁香园

丁香园（DXY），始建于2000年7月23日，创办者李天天，是一个医学知识分享网站。该网站曾于2014年9月2日获得腾讯公司7000万美元投资。

从文本匹配到语义相关——新闻相似度计算的一般思路

文本相似是NLP工业化中的一个基本任务，很多应用需要计算两文本之间的相似程度，包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别：如根据文本长度的不同，可分为短文本相似度（短语/句子级）和长文本相似度（段落/文章级）；又如根据特征工程的构建方式不同，可分基于统计特征生成（TF/TF-IDF/Simhash）和基于语义的特征模型（word2vec、doc2vec）。同样相似度的计算方式也有多种，如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

丁香园技术

聊聊电商搜索的语义理解问题

聊一聊大数据时代的电商搜索问题，如何构建商品向量、如何解决搜索词与商品名称之间的语义鸿沟问题、如何解决店铺特征稀疏等问题以及如何给用户推荐合适的商品。

丁香园技术

如何扩充知识图谱中的同义词

同义词作为知识图谱的组成部分，在Query解析、扩展查询等搜索推荐场景起到重要的作用。本文探讨了同义词挖掘的一般思路，以及目前学术界的研究现状。

丁香园技术

医疗搜索中的query词权重算法探索

本文介绍了基于不同策略的query词权重算法，并制定了符合丁香园医疗搜索场景的算法方案。

丁香园技术

搜索中的Query扩展技术

Query扩展是搜索优化工作中重要的一部分，本文介绍了Query扩展的基本思路和实施方法，以及在丁香园业务场景中的简单实践。

丁香园技术

ACL 2021 | 丁香园知识增强预训练模型

使用预训练模型已经成为大部分NLP任务的标配，因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中，引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队，在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下，首次将知识图谱中的医学实体，连同实体关系中的结构化语义信息，同时引入到预训练模型中。利用该预训练模型，在下游包括MRC、语义匹配、NER等任务都带来指标提升。

丁香园技术

中文NER碎碎念—聊聊词汇增强与实体嵌套

各平台关于NER技术介绍的文章已经非常多，本文并不以指标增长为目标，而是从先验知识融合与嵌套实体问题两方面讨论，希望可以从这两个方向的工作中获得解决其他问题的启发

丁香园技术

医疗领域情感分析

不同于电商和微博，丁香医生平台下的评论数据，除了询问病情相关的留言，还有用户对文章的见解（如：赞同或质疑科普知识）。而评论对象除了具体的事物，还有疾病症状这类情感倾向不定的实体。本文从四个方向阐述如何优化医疗领域的情感分析模型。

丁香园技术

搜索中的Query扩展技术（二）

Query扩展是搜索技术中重要的组成之一，本文探讨了当Query较长时，我们除了处理实体词，还需要注意些什么。

丁香园技术

医疗健康领域的短文本解析探索（三) ----文本纠错

今有一花厂小码农，正值壮年，浸淫nlp数载，得大佬一任务，委以纠错之重任！定当不负众望，鞠躬尽瘁。而后废寝忘食，挑灯夜读，钻研二十余日...卒!

丁香园技术

«
1
»

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.1. UTC+08:00, 2025-11-28 23:51
浙ICP备14020137号-1 $访客地图$