AI模型架构:BERT
vivo知识图谱构建的工程化设计和实现
作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供理解支撑,目前已经成为人工智能研究中越来越重要的领域。
挖掘旅游热点吸引年轻人,携程自动热点投放系统的背后玩法
从2017年开始,携程用户搜索时使用的关键词发生了一些有趣的变化:虽然传统的热门目的地词如“上海、北京”依然占比很高,但是大量长尾词如冷门景点、新兴景点也开始在搜索热词榜上占据一席之地。
对此团队进行了相应的数据分析,发现这些长尾词的急剧上升与一些外部热点如微博热搜,抖音网红,小红书热门文章等呈现正相关关系。对这个问题深入研究后发现,随着互联网用户的年轻化,网民们探索问题的热情明显变高,认知闭合(cognitive closure)度高的用户数量开始快速上升,他们在外部媒体获取到了目的地的热点和信息后,有意愿来专业旅游网站获取更多的目的地资讯,减少不确定性。因此大量用户会搜索长尾词。
淘宝视频内容标签的结构化分析和管理
随着5g时代的到来,视频内容形态迸发出勃勃生机,各大短视频app获得的巨大成功、淘宝短视频完成的种草和成交转化都说明短视频承担着商品介绍、图文内容等其他形式不可替代的重要作用。
淘宝内经过多年的沉淀,已经积累了上亿的视频。如何深入理解视频内容,对视频内容完成结构化分析和管理,对海量视频的管理和分发有着重要影响。完成视频内容的算法理解,可以对不同兴趣特点的用户分发符合他们兴趣意向的视频,从而提升用户时长和成交转化。由于视频内容是一种多模态的信息结构,包括视觉、文本、语音、商品等信息,如何提取多模态特征并进行融合理解,这也对内容理解算法提出了极大的挑战。
文本表征模型在风控场景下的应用实践
本文介绍了文本表征算法在58信安场景下的探索和实践。信息安全场景下业务种类繁多,在对用户发帖内容进行审核时,通过对文本建模得到其表征,既可以用于对文本的直接分类算法,也可以通过聚类算法快速得将文本信息归类。
深度学习中的分布式训练
分布式训练可以极大的提升深度学习模型的训练效率,节约训练时间,本文介绍了分布式训练的常见策略,以及基于Pytorch框架的分布式实现方式,可以帮助算法工程师在工作中更好的理解并使用分布式训练方式。
爱奇艺搜索排序算法实践(内附福利)
“爱奇艺搜索排序算法实践”干货分享。
NLP在携程机票人工客服会话分类中的应用
携程一直注重用户的服务效率与服务体验,在售前、售中、售后全过程中给用户提供高效的客服支持。
用户访问客服页面后,会首先与智能客服进行对话,当智能客服给出的回答无法解决用户问题时便会接入人工客服,再由人工客服给出专业的解答。对话完成后,系统根据人工客服会话内容,应用NLP相关技术给出会话类别。这一结果将直接指导客服的管理与决策。本文将主要介绍携程机票在人工客服会话分类时使用的相关NLP技术和优化方案。
本地生活综合性需求图谱的构建及应用
本文介绍了本地生活综合性需求图谱的背景、体系设计和涉及的算法实践,并展示了在美团多个业务线的应用落地,希望给大家带来一些帮助或启发。
爱奇艺多语言台词机器翻译技术实践
2019年6月,爱奇艺正式推出服务全球用户的产品iQIYI App,并通过中台系统为iQIYI App提供全球化运营支持,由此开启了海外市场布局之路。作为影视内容服务商,其中必然涉及大量长视频,而长视频的出海,重要的一环就是台词翻译。
目前,爱奇艺已在多个国家布局,涉及多种语言的台词翻译,主要有泰语、越南语、印尼语、马来语、西班牙语、阿拉伯语等等语言,这就使得多语言翻译成为了迫在眉睫的现实需求。
此外,与通用翻译相比,台词翻译有一些独有的特点如:
(1)台词一般句子较短,上下文信息不足,歧义性大;
(2)很多台词来源于OCR或ASR识别的结果,会有错误,可能影响翻译质量;
(3)在台词对话中往往会涉及很多人物的指代,故而角色名和代词的翻译对于台词翻译来说尤为重要;
(4)部分台词需要结合视频场景信息才能进行语义消歧。
正是爱奇艺海外多国布局的现实需要以及台词翻译的独有特点这两大因素使得台词场景下多语言机器翻译实践成为现实。
58本地服务《虚拟类目-标签》体系构建
本文介绍了58本地服务《虚拟类目-标签》体系构建的相关工作,包括虚拟类目生成、标签筛选及挂载、同义去重等内容,我们将实际业务需求转化成机器学习问题,并调研实践相关算法模型完成构建工作。通过逐步上线《虚拟类目-标签》内容,方便用户找到所需服务以提高转化率,实现业务提效的目标。
闲鱼搜索相关性——体验与效率平衡的背后
相关性和交易效率是否可以兼得?
企业知识图谱技术与应用
知识图谱于2012年提出,当时主要被用来提高其搜索引擎质量,改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步,越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务,本文介绍了爱番番构建企业知识图谱使用到技术及其应用。
常识性概念图谱建设以及在美团场景中的应用
本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。
NLP在招标项目中的运用与实现
58同城是国内最大的生活服务类信息平台,有着数百万的商家,其中不乏有资质的商家可以参与投标,为了给这些商家提供更多的有效商机和更大的订单量,我们整合了全网招标资源,30+服务行业的招标采购项目至58同城商家版APP平台,在招标服务模块中提供及时有效的本地生活服务领域标书,帮助商家获得最新商机。
文本匹配算法在智能语音机器人中的对比分析实践
本文主要针对经典的文本匹配技术在语音机器人中标准问题匹配上进行实践对比,文中先是介绍了经典孪生网络 SiameseLSTM,BiMPM,ESIM原理及其使用方法,其次是分析对比了Bert 系列预训练模型对标准问题匹配的影响,最后介绍了对抗训练与模型集成等 Tricks在文本匹配中应用,最终在测试数据集下文本匹配准确率从 97.23% 提升到 99.5 %。
ACL 2021 | 丁香园知识增强预训练模型
使用预训练模型已经成为大部分NLP任务的标配,因此近年来有大量的工作围绕着如何提高预训练模型的质量。其中,引入外部知识无疑是最热门的话题之一。丁香园NLP联合华师大何晓丰老师团队,在今年的ACL上发表了 SMedBERT 工作。这是在医疗垂直领域下,首次将知识图谱中的医学实体,连同实体关系中的结构化语义信息,同时引入到预训练模型中。利用该预训练模型,在下游包括MRC、语义匹配、NER等任务都带来指标提升。