机器学习模型：BERT的相关资料

小数据量语音合成技术在作业帮的应用

语音合成是将文字内容转化成人耳可感知音频的技术手段，传统的语音合成方案有两类：基于波形串联拼接的方法和基于统计参数的方法。随着深度学习的发展以及计算能力的不断提升，基于神经网络的语音合成方案逐步成为语音合成领域的研究热点。

相较于传统的语音合成方案来说，基于神经网络的语音合成技术最大的特点就是结构简单。端到端的语音合成方案可以直接输入文本或者字符，合成系统就能将与之对应的音频波形直接输出，降低了开发者对语言学和声学知识的掌握要求，同时该方案下生成的音频无论拟人化程度，还是对原始录音数据情感风格的还原情况都远优于传统方案。

作业帮技术

Ernie-SimCSE对比学习在内容反作弊上应用

将前沿文本表示学习引入与spammer的持续对抗中，不断提升反作弊能力，提高spammer作弊成本。

百度技术

检索式对话系统在美团客服场景的探索与实践

美团语音技术团队设计并迭代了一套基于检索式对话系统的框架，以推荐回复的方式，基于对话上文为坐席提供候选回复，提高坐席效率进而提升用户体验，在美团众多业务上均取得了显著的效果。

美团技术

对比学习算法在转转的实践

CL 的技术源泉来自度量学习，大概的思想是：定义好样本的正例和负例，以及映射关系（将实体映射到新的空间），优化目标是让正例在空间中与目标样本的距离近一些，而负例要相对远一些。

58同城技术

创意作为一种信息载体，将广告主的营销内容呈现给用户，辅助用户消费决策，乃至激发潜在需求。通常，创意可表现为文本、图片及视频物料的单一或组合形式，而创意优化旨在提升创意物料的业务价值，本文简要聊聊针对创意文案自动撰写的一些探索与实践，整体分五部分：第一部分简述广告文案优化的必要性；第二部分介绍文本生成相关概念及主流方法；第三部分介绍在文案生成方面的探索实践；第四部分借鉴业界研究成果，探讨文案自动生成未来的一些工作思路；最后做下小结。

百度技术

基于CNN的新词发现算法

借鉴经典图像算法，NLP领域“新词发现”任务的一种创新解法。

携程技术

Transformer技术在好大夫在线的落地探索

众所周知，好大夫在线拥有数十亿条医患交流和数亿张医疗相关照片。它们占有着大量的存储空间，且由于标记成本过高，而没办法被利用。Transformer技术给了我们一个将它们利用起来的机会，从而给医患群体提供更可靠的帮助。

好大夫技术

“软硬结合”- 转转搜索少无结果模块简介

搜索场景下，相关性与流量效率都是两大核心目标。转转少无结果与转转主搜就是这样的两个模块，转转少无结果模块是转转主搜模块的兜底，当用户在APP搜索时，主搜商品展示完毕或者主搜商品过少时，会向用户展示“猜你喜欢”商品。即少无结果模块。

58同城技术

prompt 综述

prompt的初衷是能够运用于zero shot和few shot的场景，使得语言模型可以在预训练阶段利用尽可能多的信息进行训练，后续也能最大效率的发挥其作用。

字节跳动技术

初探自然语言预训练技术演进之路

语言模型预训练技术将自然语言处理带入了一个新纪元，本文介绍早期词表示技术、静态词向量技术、基于预训练语言模型的动态词向量技术，试图为大家梳理预训练技术的演进路径。

字节跳动技术

BERT能否被“平替”？作业帮文本分类场景下的一次尝试

近年来，在众多自然语言处理模型中最具有代表性的就是BERT，它以优异的性能赢得了广大算法工程师的青睐。但是，在有些生产环境中，BERT庞大的参数量不仅在推理时占用过多的计算资源，也不利于后续模型的扩展迭代。

作业帮的业务体量较大，每天会生产大量的文本数据。这些数据均需要经过自然语言处理模型来生成业务可以直接使用的文本分类标签。在实际生产阶段，我们的场景具有如下特点：

标签分了多期进行建设和产出，每期的标签在不同的场景有不同的阈值；
每个时期的标签之间既存在独立性又存在依赖性；
每个时期的有监督数据较少，一般的机器学习模型很难取得较好的线上效果，因此每一期的标签都是基于BERT进行fine-tune和部署。

目前我们的模型训练及部署流程如上图所示。结合作业帮的实际业务场景特点和使用方式，我们面临如下问题：

1)每当新的任务需求提出后，都需要对BERT进行微调来满足。

2)随着任务数量的增加，服务器上部署的BERT数量也会不断上升，导致占用较多的GPU计算资源，而且任务之间的调度也会变得更加复杂。

因此，本文将以上述场景作为对象，探讨在研究平替BERT过程中的发现和结果，并对比它们的各项性能指标。最终目标是找到一个和BERT推理效果基本持平，但占用更少计算资源（特别是减少GPU计算资源），同时具有优秀扩展性的解决方案。

作业帮技术

垂直领域的概念标签建设技术实践

概念(Concept)蕴含着世界知识，指导着人类认知的发展，具有抽象性，概括性等特点。标签的挖掘和标签体系建设也是一个重要的研究问题，尤其是针对UGC/PGC文档的处理更为实用和重要。

汽车之家技术

基于语义的OCR纠错实现

作为超级自动化的代表公司，来也科技推进的许多自动化解决方案中，需要OCR（光学文字识别）的能力，经过持续的积累和创新，目前来也自研的通用OCR识别在60多个复杂的中文测试集合上近70万的字符上，综合F1指标已经接近97%，远超国内大多数竞品公司。

虽然综合指标上已经取得非常好的成绩，但是因为视觉深度学习OCR模型的天生缺陷，在一些长尾问题上依然识别准确率不高，典型的有以下场景：

污渍干扰如红章、墨迹
形似字如 “戍”与“戌、成、戊”
图像变形引起的字体变形

来也技术

浅谈有赞搜索QP架构设计

在NLP中，QP被称作Query理解（QueryParser），简单来说就是从词法、句法、语义三个层面对query进行结构化解析。这里query从广义上来说涉及的任务比较多，最常见的就是搜索系统中输入的查询词，也可以是FAQ问答或阅读理解中的问句，又或者可以是人机对话中用户的聊天输入。

在有赞，QP系统专注对查询内容进行结构化解析，整合了有赞NLP能力，提供统一对外接口，与业务逻辑解耦。通过配置化快速满足业务接入需求，同时将算法能力插件化，并支持人工干预插件执行结果。

以精选搜索为例，当用户输入衣服时用户往往想要搜的是衣服类商品，而不是衣服架，衣服配饰等衣服周边用品。通过将衣服类目进行加权，将衣服类的商品排在靠前的位置，优化用户搜索体验。

有赞技术