机器学习模型:BERT
文本表征模型在风控场景下的应用实践
本文介绍了文本表征算法在58信安场景下的探索和实践。信息安全场景下业务种类繁多,在对用户发帖内容进行审核时,通过对文本建模得到其表征,既可以用于对文本的直接分类算法,也可以通过聚类算法快速得将文本信息归类。
深度学习中的分布式训练
分布式训练可以极大的提升深度学习模型的训练效率,节约训练时间,本文介绍了分布式训练的常见策略,以及基于Pytorch框架的分布式实现方式,可以帮助算法工程师在工作中更好的理解并使用分布式训练方式。
爱奇艺搜索排序算法实践(内附福利)
“爱奇艺搜索排序算法实践”干货分享。
NLP在携程机票人工客服会话分类中的应用
携程一直注重用户的服务效率与服务体验,在售前、售中、售后全过程中给用户提供高效的客服支持。
用户访问客服页面后,会首先与智能客服进行对话,当智能客服给出的回答无法解决用户问题时便会接入人工客服,再由人工客服给出专业的解答。对话完成后,系统根据人工客服会话内容,应用NLP相关技术给出会话类别。这一结果将直接指导客服的管理与决策。本文将主要介绍携程机票在人工客服会话分类时使用的相关NLP技术和优化方案。
本地生活综合性需求图谱的构建及应用
本文介绍了本地生活综合性需求图谱的背景、体系设计和涉及的算法实践,并展示了在美团多个业务线的应用落地,希望给大家带来一些帮助或启发。
爱奇艺多语言台词机器翻译技术实践
2019年6月,爱奇艺正式推出服务全球用户的产品iQIYI App,并通过中台系统为iQIYI App提供全球化运营支持,由此开启了海外市场布局之路。作为影视内容服务商,其中必然涉及大量长视频,而长视频的出海,重要的一环就是台词翻译。
目前,爱奇艺已在多个国家布局,涉及多种语言的台词翻译,主要有泰语、越南语、印尼语、马来语、西班牙语、阿拉伯语等等语言,这就使得多语言翻译成为了迫在眉睫的现实需求。
此外,与通用翻译相比,台词翻译有一些独有的特点如:
(1)台词一般句子较短,上下文信息不足,歧义性大;
(2)很多台词来源于OCR或ASR识别的结果,会有错误,可能影响翻译质量;
(3)在台词对话中往往会涉及很多人物的指代,故而角色名和代词的翻译对于台词翻译来说尤为重要;
(4)部分台词需要结合视频场景信息才能进行语义消歧。
正是爱奇艺海外多国布局的现实需要以及台词翻译的独有特点这两大因素使得台词场景下多语言机器翻译实践成为现实。
58本地服务《虚拟类目-标签》体系构建
本文介绍了58本地服务《虚拟类目-标签》体系构建的相关工作,包括虚拟类目生成、标签筛选及挂载、同义去重等内容,我们将实际业务需求转化成机器学习问题,并调研实践相关算法模型完成构建工作。通过逐步上线《虚拟类目-标签》内容,方便用户找到所需服务以提高转化率,实现业务提效的目标。
闲鱼搜索相关性——体验与效率平衡的背后
相关性和交易效率是否可以兼得?
企业知识图谱技术与应用
知识图谱于2012年提出,当时主要被用来提高其搜索引擎质量,改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务,本文介绍了爱番番构建企业知识图谱使用到技术及其应用。
常识性概念图谱建设以及在美团场景中的应用
本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。
NLP在招标项目中的运用与实现
58同城是国内最大的生活服务类信息平台,有着数百万的商家,其中不乏有资质的商家可以参与投标,为了给这些商家提供更多的有效商机和更大的订单量,我们整合了全网招标资源,30+服务行业的招标采购项目至58同城商家版APP平台,在招标服务模块中提供及时有效的本地生活服务领域标书,帮助商家获得最新商机。
文本匹配算法在智能语音机器人中的对比分析实践
本文主要针对经典的文本匹配技术在语音机器人中标准问题匹配上进行实践对比,文中先是介绍了经典孪生网络 SiameseLSTM,BiMPM,ESIM原理及其使用方法,其次是分析对比了Bert 系列预训练模型对标准问题匹配的影响,最后介绍了对抗训练与模型集成等 Tricks在文本匹配中应用,最终在测试数据集下文本匹配准确率从 97.23% 提升到 99.5 %。
ACL 2021 | 丁香园知识增强预训练模型
使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中,引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队,在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下,首次将知识图谱中的医学实体,连同实体关系中的结构化语义信息,同时引入到预训练模型中。利用该预训练模型,在下游包括MRC、语义匹配、NER等任务都带来指标提升。
58黄页标签提取及海量多分类优化
58黄页是一个用户找服务的平台,主要靠商家发帖,用户通过帖子找服务。但商家的帖子标题描述及用户的评价等都是纯文本的,不是结构化的数据。用户检索时无法对帖子核心内容进行突出展示,召回等。由此,需要从文本里提取标签,标签是通过对帖子内容分析得到的高度精炼的特征词或短语,将帖子内容标签化可以突出帖子特性,实现帖子内容结构化,帮助用户更快定位到所需要的服务,提升用户体验。
情感计算在ugc应用进展
观点、情感以及与之相关的许多概念,如评价、态度、感情和心情,与我们主观的感觉和感受密切相关。我们对于现实世界的感知和感受,包括我们做出的任何选择,也很大程度上受到他人对于当前世界的洞察和观点的影响。情感分析伴随着网络社会媒体(如评论、论坛、微博、新闻资讯网站)的兴起而快速发展。这些也被称为用户生成内容(ugc)的社会媒体数据,社会媒体中用户生成内容蕴含了大量的用户观点信息,要从中挖掘有用知识需要对情感计算与观点挖掘问题进行研究。自2000年来年初以来,情感计算已称为自然语言处理领域最活跃的研究问题之一。情感计算系统几乎在每一个企业、卫生机构、政府乃至整个社会都有广泛应用。
中文NER碎碎念—聊聊词汇增强与实体嵌套
各平台关于NER技术介绍的文章已经非常多,本文并不以指标增长为目标,而是从先验知识融合与嵌套实体问题两方面讨论,希望可以从这两个方向的工作中获得解决其他问题的启发