AI模型架构：BERT的相关资料

Introducing LinNét: Using Rich Image and Text Data to Categorize Products at Scale

We reevaluated our existing product categorization model to ensure we’re understanding what our merchants are selling, to build the best products that help power their sales.

shopify技术

弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践

探索采用非人工标注文本数据的方式来建立训练数据集的可行性。

携程技术

小样本学习及其在美团场景中的应用

美团的各个业务有着丰富的NLP场景，而这些场景中模型的构建需要很多的标注资源，成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法，并在美团场景进行了实验，效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。

美团技术

vivo知识图谱构建的工程化设计和实现

作为人工智能时代最重要的知识表示方式之一，知识图谱能够打破不同场景下的数据隔离，为搜索、推荐、问答、解释与决策等应用提供理解支撑，目前已经成为人工智能研究中越来越重要的领域。

vivo技术

挖掘旅游热点吸引年轻人，携程自动热点投放系统的背后玩法

从2017年开始，携程用户搜索时使用的关键词发生了一些有趣的变化：虽然传统的热门目的地词如“上海、北京”依然占比很高，但是大量长尾词如冷门景点、新兴景点也开始在搜索热词榜上占据一席之地。

对此团队进行了相应的数据分析，发现这些长尾词的急剧上升与一些外部热点如微博热搜，抖音网红，小红书热门文章等呈现正相关关系。对这个问题深入研究后发现，随着互联网用户的年轻化，网民们探索问题的热情明显变高，认知闭合（cognitive closure）度高的用户数量开始快速上升，他们在外部媒体获取到了目的地的热点和信息后，有意愿来专业旅游网站获取更多的目的地资讯，减少不确定性。因此大量用户会搜索长尾词。

携程技术

淘宝视频内容标签的结构化分析和管理

随着5g时代的到来，视频内容形态迸发出勃勃生机，各大短视频app获得的巨大成功、淘宝短视频完成的种草和成交转化都说明短视频承担着商品介绍、图文内容等其他形式不可替代的重要作用。

淘宝内经过多年的沉淀，已经积累了上亿的视频。如何深入理解视频内容，对视频内容完成结构化分析和管理，对海量视频的管理和分发有着重要影响。完成视频内容的算法理解，可以对不同兴趣特点的用户分发符合他们兴趣意向的视频，从而提升用户时长和成交转化。由于视频内容是一种多模态的信息结构，包括视觉、文本、语音、商品等信息，如何提取多模态特征并进行融合理解，这也对内容理解算法提出了极大的挑战。

阿里巴巴技术

文本表征模型在风控场景下的应用实践

本文介绍了文本表征算法在58信安场景下的探索和实践。信息安全场景下业务种类繁多，在对用户发帖内容进行审核时，通过对文本建模得到其表征，既可以用于对文本的直接分类算法，也可以通过聚类算法快速得将文本信息归类。

58同城技术

深度学习中的分布式训练

分布式训练可以极大的提升深度学习模型的训练效率，节约训练时间，本文介绍了分布式训练的常见策略，以及基于Pytorch框架的分布式实现方式，可以帮助算法工程师在工作中更好的理解并使用分布式训练方式。

OPPO技术

爱奇艺搜索排序算法实践（内附福利）

“爱奇艺搜索排序算法实践”干货分享。

爱奇艺技术

NLP在携程机票人工客服会话分类中的应用

携程一直注重用户的服务效率与服务体验，在售前、售中、售后全过程中给用户提供高效的客服支持。

用户访问客服页面后，会首先与智能客服进行对话，当智能客服给出的回答无法解决用户问题时便会接入人工客服，再由人工客服给出专业的解答。对话完成后，系统根据人工客服会话内容，应用NLP相关技术给出会话类别。这一结果将直接指导客服的管理与决策。本文将主要介绍携程机票在人工客服会话分类时使用的相关NLP技术和优化方案。

携程技术

本地生活综合性需求图谱的构建及应用

本文介绍了本地生活综合性需求图谱的背景、体系设计和涉及的算法实践，并展示了在美团多个业务线的应用落地，希望给大家带来一些帮助或启发。

美团技术

爱奇艺多语言台词机器翻译技术实践

2019年6月，爱奇艺正式推出服务全球用户的产品iQIYI App，并通过中台系统为iQIYI App提供全球化运营支持，由此开启了海外市场布局之路。作为影视内容服务商，其中必然涉及大量长视频，而长视频的出海，重要的一环就是台词翻译。

目前，爱奇艺已在多个国家布局，涉及多种语言的台词翻译，主要有泰语、越南语、印尼语、马来语、西班牙语、阿拉伯语等等语言，这就使得多语言翻译成为了迫在眉睫的现实需求。

此外，与通用翻译相比，台词翻译有一些独有的特点如：

（1）台词一般句子较短，上下文信息不足，歧义性大；

（2）很多台词来源于OCR或ASR识别的结果，会有错误，可能影响翻译质量；

（3）在台词对话中往往会涉及很多人物的指代，故而角色名和代词的翻译对于台词翻译来说尤为重要；

（4）部分台词需要结合视频场景信息才能进行语义消歧。

正是爱奇艺海外多国布局的现实需要以及台词翻译的独有特点这两大因素使得台词场景下多语言机器翻译实践成为现实。

爱奇艺技术

AI模型架构：BERT的相关资料

AI模型架构：BERT

Introducing LinNét: Using Rich Image and Text Data to Categorize Products at Scale

弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践

小样本学习及其在美团场景中的应用

vivo知识图谱构建的工程化设计和实现

挖掘旅游热点吸引年轻人，携程自动热点投放系统的背后玩法

淘宝视频内容标签的结构化分析和管理

文本表征模型在风控场景下的应用实践

深度学习中的分布式训练

爱奇艺搜索排序算法实践（内附福利）

NLP在携程机票人工客服会话分类中的应用

本地生活综合性需求图谱的构建及应用

爱奇艺多语言台词机器翻译技术实践

58本地服务《虚拟类目-标签》体系构建

闲鱼搜索相关性——体验与效率平衡的背后

企业知识图谱技术与应用

常识性概念图谱建设以及在美团场景中的应用