话题AI模型架构 › BERT

AI模型架构:BERT

初探自然语言预训练技术演进之路

语言模型预训练技术将自然语言处理带入了一个新纪元,本文介绍早期词表示技术、静态词向量技术、基于预训练语言模型的动态词向量技术,试图为大家梳理预训练技术的演进路径。

BERT能否被“平替”?作业帮文本分类场景下的一次尝试

近年来,在众多自然语言处理模型中最具有代表性的就是BERT,它以优异的性能赢得了广大算法工程师的青睐。但是,在有些生产环境中,BERT庞大的参数量不仅在推理时占用过多的计算资源,也不利于后续模型的扩展迭代。

作业帮的业务体量较大,每天会生产大量的文本数据。这些数据均需要经过自然语言处理模型来生成业务可以直接使用的文本分类标签。在实际生产阶段,我们的场景具有如下特点:

  1. 标签分了多期进行建设和产出,每期的标签在不同的场景有不同的阈值;
  2. 每个时期的标签之间既存在独立性又存在依赖性;
  3. 每个时期的有监督数据较少,一般的机器学习模型很难取得较好的线上效果,因此每一期的标签都是基于BERT进行fine-tune和部署。

目前我们的模型训练及部署流程如上图所示。结合作业帮的实际业务场景特点和使用方式,我们面临如下问题:

1)每当新的任务需求提出后,都需要对BERT进行微调来满足。

2)随着任务数量的增加,服务器上部署的BERT数量也会不断上升,导致占用较多的GPU计算资源,而且任务之间的调度也会变得更加复杂。

因此,本文将以上述场景作为对象,探讨在研究平替BERT过程中的发现和结果,并对比它们的各项性能指标。最终目标是找到一个和BERT推理效果基本持平,但占用更少计算资源(特别是减少GPU计算资源),同时具有优秀扩展性的解决方案。

垂直领域的概念标签建设技术实践

概念(Concept)蕴含着世界知识,指导着人类认知的发展,具有抽象性,概括性等特点。标签的挖掘和标签体系建设也是一个重要的研究问题,尤其是针对UGC/PGC文档的处理更为实用和重要。

基于语义的OCR纠错实现

作为超级自动化的代表公司,来也科技推进的许多自动化解决方案中,需要OCR(光学文字识别)的能力,经过持续的积累和创新,目前来也自研的通用OCR识别在60多个复杂的中文测试集合上近70万的字符上,综合F1指标已经接近97%,远超国内大多数竞品公司。

虽然综合指标上已经取得非常好的成绩,但是因为视觉深度学习OCR模型的天生缺陷,在一些长尾问题上依然识别准确率不高,典型的有以下场景:

  1. 污渍干扰如红章、墨迹
  2. 形似字 如 “戍”与“戌、成、戊”
  3. 图像变形引起的字体变形

浅谈有赞搜索QP架构设计

在NLP中,QP被称作Query理解(QueryParser),简单来说就是从词法、句法、语义三个层面对query进行结构化解析。这里query从广义上来说涉及的任务比较多,最常见的就是搜索系统中输入的查询词,也可以是FAQ问答或阅读理解中的问句,又或者可以是人机对话中用户的聊天输入。

在有赞,QP系统专注对查询内容进行结构化解析,整合了有赞NLP能力,提供统一对外接口,与业务逻辑解耦。通过配置化快速满足业务接入需求,同时将算法能力插件化,并支持人工干预插件执行结果。

以精选搜索为例,当用户输入衣服时用户往往想要搜的是衣服类商品,而不是衣服架,衣服配饰等衣服周边用品。通过将衣服类目进行加权,将衣服类的商品排在靠前的位置,优化用户搜索体验。

哈啰搜索推荐一体化建设

本次跟大家分享的是哈啰搜索推荐一体化建设,包括以下几大部分:搜推算法介绍和模型沉淀、搜推一体化引擎和算法组件设计和搜推一体化算法在哈啰的应用。

vivo前端智能化实践:机器学习在自动网页布局中的应用

在设计稿转网页中运用基于self-attention机制设计的机器学习模型进行设计稿的布局,能够结合dom节点的上下文得出合理的方案。

面向推荐的汽车知识图谱构建

知识图谱的概念,最早由 Google 在2012 年提出, 旨在实现更智能的搜索引擎,并在2013年之后开始在学术界和工业级普及。目前,随着人工智能技术的高速发展,知识图谱已广泛应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人等多个领域。

从文本匹配到语义相关——新闻相似度计算的一般思路

文本相似是NLP工业化中的一个基本任务,很多应用需要计算两文本之间的相似程度,包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别:如根据文本长度的不同,可分为短文本相似度(短语/句子级)和长文本相似度(段落/文章级);又如根据特征工程的构建方式不同,可分基于统计特征生成(TF/TF-IDF/Simhash)和基于语义的特征模型(word2vec、doc2vec)。同样相似度的计算方式也有多种,如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

服务器内存故障预测居然可以这样做!

本文主要介绍EDAC(Error Detection And Correction)框架在内存预测方面的应用。

大众点评搜索相关性技术探索与实践

本文主要讲述大众点评搜索团队在相关性计算上的技术探索和实践,通过多相似矩阵模型结构、多阶段训练等方法提升预训练模型在相关性问题上的效果,同时解决基于交互的模型在线预测的性能问题。

携程实体链接技术的探索及实践

随着网络应用技术的飞速发展,多元化、低密度数据的急剧膨胀对人们获取正确信息带来巨大挑战,大量冗余信息出现的根源在于自然语言表达的多样性,即一词多义和多词同义。例如,“苹果”在不同语境下既可以表示蔷薇科苹果属植物又可以表示苹果产品公司,“申城”和“魔都”尽管字面完全不同,却都是上海市的别称。实现对海量Web数据的高效处理,理解用户意图,降低信息过载,是实体链接的目标。

在旅游领域,用户关注的实体通常是旅游目的地周边景点、酒店和玩乐方式等,这些对象在地理信息系统(Geographic Information Systems, GIS)中统称为兴趣点(Point of Interest,POI),主要包含四个核心维度:名称、地址、坐标和类别。随着互联网电子地图服务与基于位置的服务(Location Based Services,LBS)的普及,POI无论从概念范畴还是信息纵深上都有了长足发展,已成长为信息空间的参天大树,可以说目前如日中天的互联网各个风口都和POI有一定关系,如电商、O2O、社交、本地生活、互联网金融、共享经济等。

构建以POI知识库为基础的实体链接服务,提升旅游搜索、智能问答、知识挖掘和信息抽取等工作的效果,对改善用户体验有重要意义。

智能化自动生成文本总结的方法

对长文本进行总结和概括一直以来都是一项繁琐的任务,需要工作人员耗费大量的时间和精力去理解文本内容再对重要信息进行提炼和整合。尤其是针对一些晦涩难懂且专业性较强的文本,更是只有经验丰富的工作人员才能对文本进行正确的理解和总结。因此,我们渴望用一种自动化的方式来实现对文本进行准确的总结和概括。

随着神经网络和自然语言处理技术的发展,为自动化生成摘要、总结提供了有效的方法,并在一定程度提高了人们的工作效率。本文将从当下比较热门、效果较好的技术来为大家进行介绍。

智能问答:基于 BERT 的语义模型

飞书智能问答应用于员工服务场景,致力于减少客服人力消耗的同时,以卡片的形式高效解决用户知识探索性需求。飞书智能问答整合了服务台、wiki 中的问答对,形成问答知识库,在综合搜索、服务台中以一问一答的方式将知识提供给用户。

作为企业级 SaaS 应用,飞书对数据安全和服务稳定性都有极高的要求,这就导致了训练数据存在严重的不足,且极大的依赖于公开数据而无法使用业务数据。在模型迭代过程中,依赖公开数据也导致模型训练数据存在与业务数据分布不一致的情况。通过和多个试点服务台的合作,在得到用户充分授权后,以不接触数据的方式进行训练。即模型可见数据,但人工无法以任何方式获取明文数据。

对话摘要技术在美团的探索(SIGIR)

随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,而文本摘要就是其中一个重要的手段。

本文首先介绍了经典的文本摘要方法,随后分析了对话摘要的模型,并分享了美团在真实对话摘要场景中面临的挑战。同时基于实际的场景,本文提出了阅读理解的距离监督Span-Level对话摘要方案(已发表在SIGIR 2021),该方法比强基准方法在ROUGE-L指标和BLEU指标上提升了3%左右。

基于智能算法的舆情分析技术研究与实践-理论基础与舆情模型构建

近年来,金融市场信用风险环境发生了显著变化,违约事件频发,随着证券公司信用业务种类和敞口增加,资讯舆情风险监测能力逐步成为证券公司的重要竞争力;证券公司需要针对自身需求场景,多角度发掘企业主体的经营风险和潜在价值信号,实现对舆情资讯精准高效的分析分类。提高了业务部门接收市场舆情的精准度和时效,助力业务人员识别风险和发掘价值机会。

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.148.3. UTC+08:00, 2026-01-12 12:29
浙ICP备14020137号-1 $访客地图$