话题机器学习模型 › BERT

机器学习模型:BERT

面向推荐的汽车知识图谱构建

知识图谱的概念,最早由 Google 在2012 年提出, 旨在实现更智能的搜索引擎,并在2013年之后开始在学术界和工业级普及。目前,随着人工智能技术的高速发展,知识图谱已广泛应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人等多个领域。

从文本匹配到语义相关——新闻相似度计算的一般思路

文本相似是NLP工业化中的一个基本任务,很多应用需要计算两文本之间的相似程度,包括文本检索中相似文本的去重、问答系统中query与标准模板问题的匹配、句子对语义判断等。

根据不同的标准可以将该任务划分为不同的类别:如根据文本长度的不同,可分为短文本相似度(短语/句子级)和长文本相似度(段落/文章级);又如根据特征工程的构建方式不同,可分基于统计特征生成(TF/TF-IDF/Simhash)和基于语义的特征模型(word2vec、doc2vec)。同样相似度的计算方式也有多种,如最小编辑距离、欧氏距离、汉明距离、余弦距离等。本期文章以新闻类数据相似任务的实际开发过程为顺序展开介绍。

服务器内存故障预测居然可以这样做!

本文主要介绍EDAC(Error Detection And Correction)框架在内存预测方面的应用。

大众点评搜索相关性技术探索与实践

本文主要讲述大众点评搜索团队在相关性计算上的技术探索和实践,通过多相似矩阵模型结构、多阶段训练等方法提升预训练模型在相关性问题上的效果,同时解决基于交互的模型在线预测的性能问题。

携程实体链接技术的探索及实践

随着网络应用技术的飞速发展,多元化、低密度数据的急剧膨胀对人们获取正确信息带来巨大挑战,大量冗余信息出现的根源在于自然语言表达的多样性,即一词多义和多词同义。例如,“苹果”在不同语境下既可以表示蔷薇科苹果属植物又可以表示苹果产品公司,“申城”和“魔都”尽管字面完全不同,却都是上海市的别称。实现对海量Web数据的高效处理,理解用户意图,降低信息过载,是实体链接的目标。

在旅游领域,用户关注的实体通常是旅游目的地周边景点、酒店和玩乐方式等,这些对象在地理信息系统(Geographic Information Systems, GIS)中统称为兴趣点(Point of Interest,POI),主要包含四个核心维度:名称、地址、坐标和类别。随着互联网电子地图服务与基于位置的服务(Location Based Services,LBS)的普及,POI无论从概念范畴还是信息纵深上都有了长足发展,已成长为信息空间的参天大树,可以说目前如日中天的互联网各个风口都和POI有一定关系,如电商、O2O、社交、本地生活、互联网金融、共享经济等。

构建以POI知识库为基础的实体链接服务,提升旅游搜索、智能问答、知识挖掘和信息抽取等工作的效果,对改善用户体验有重要意义。

智能化自动生成文本总结的方法

对长文本进行总结和概括一直以来都是一项繁琐的任务,需要工作人员耗费大量的时间和精力去理解文本内容再对重要信息进行提炼和整合。尤其是针对一些晦涩难懂且专业性较强的文本,更是只有经验丰富的工作人员才能对文本进行正确的理解和总结。因此,我们渴望用一种自动化的方式来实现对文本进行准确的总结和概括。

随着神经网络和自然语言处理技术的发展,为自动化生成摘要、总结提供了有效的方法,并在一定程度提高了人们的工作效率。本文将从当下比较热门、效果较好的技术来为大家进行介绍。

智能问答:基于 BERT 的语义模型

飞书智能问答应用于员工服务场景,致力于减少客服人力消耗的同时,以卡片的形式高效解决用户知识探索性需求。飞书智能问答整合了服务台、wiki 中的问答对,形成问答知识库,在综合搜索、服务台中以一问一答的方式将知识提供给用户。

作为企业级 SaaS 应用,飞书对数据安全和服务稳定性都有极高的要求,这就导致了训练数据存在严重的不足,且极大的依赖于公开数据而无法使用业务数据。在模型迭代过程中,依赖公开数据也导致模型训练数据存在与业务数据分布不一致的情况。通过和多个试点服务台的合作,在得到用户充分授权后,以不接触数据的方式进行训练。即模型可见数据,但人工无法以任何方式获取明文数据。

对话摘要技术在美团的探索(SIGIR)

随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降维”处理显得非常必要,而文本摘要就是其中一个重要的手段。

本文首先介绍了经典的文本摘要方法,随后分析了对话摘要的模型,并分享了美团在真实对话摘要场景中面临的挑战。同时基于实际的场景,本文提出了阅读理解的距离监督Span-Level对话摘要方案(已发表在SIGIR 2021),该方法比强基准方法在ROUGE-L指标和BLEU指标上提升了3%左右。

基于智能算法的舆情分析技术研究与实践-理论基础与舆情模型构建

近年来,金融市场信用风险环境发生了显著变化,违约事件频发,随着证券公司信用业务种类和敞口增加,资讯舆情风险监测能力逐步成为证券公司的重要竞争力;证券公司需要针对自身需求场景,多角度发掘企业主体的经营风险和潜在价值信号,实现对舆情资讯精准高效的分析分类。提高了业务部门接收市场舆情的精准度和时效,助力业务人员识别风险和发掘价值机会。

预训练语言模型在自动作文评分中的应用

本文介绍了AES领域的相关方法和问题,并针对预训练模型在AES领域的问题进行分析和改进,在流利说内部和外部数据数据上取得了较好的结果,也为长文本编码提供了一种有效的编码方式。

Using predictive technology to foster constructive conversations

Nextdoor’s purpose is to cultivate a kinder world where everyone has a neighborhood they can rely on. We want to give neighbors ways to connect and be kind to each other, online and in real life. One of the biggest levers we have for cultivating more neighborly interactions is by building strategic nudges throughout the product to encourage kinder conversations.

Today, we use a number of mechanisms to encourage kindness on the platform, including pop-up reminders that slow neighbors down before responding negatively. Over the past few years, we’ve used machine learning models to identify uncivil and contentious content.

Words All the Way Down — Conversational Sentiment Analysis

Explore challenges, methodologies and datasets around conversational sentiments and learn how PayPal analyses customer sentiment.

从跨模态和上升通道谈富媒体内容的冷启动

富媒体内容相比于传统的文章、图片、音乐等单一载体内容,在“注意力经济”的时代,是能够最大限度传递信息、吸引消费者注意力的内容形式,因其丰富的呈现形式成为平台创作者最佳的表达工具,冷启优化至关重要。

基于双模检测的通话录音质检解决方案

本文针对客服通话录音质检场景,提出了一套智能质检解决方案,可对通话内容中标准话术、红线词和相似语义话术进行检测,通过双模检测模型同时提升了检测算法的准确性和泛化性。

网易新闻视频内容标签多模态分析

随着短视频兴起,每天有海量的短视频上传到各大视频平台,面对海量的短视频,如何提升这些短视频的智能分发效率是各大短视频平台面临的重要课题。视频的标签技术是内容理解的一种重要手段,可以对不同兴趣的用户分发属于他们感兴趣的视频,从而提升平台的用户时长和ctr。

淘宝Push智能文案生成

Push是淘宝重要促活手段之一,运营同学通过投放各类营销、产品Push以达到唤端、促活目的。Push素材通常由人群、商品或者活动、文案构成,与用户有直接沟通的便是Push文案,优质的素材文案吸引用户点击起到正向促活作用,而劣质内容不仅可能影响用户体验,更甚者可能引发用户关闭通道。淘宝Push团队构建了统一投递平台方便各个业务方创建任务投放Push,为业务引流。通常业务同学在创建投放任务前进行Push文案创作,任务上线稳定投放后基本处于维护状态极少进行文案更新。Push业务整体文案多样性低,现有素材库内容同质且单一,基本基于电商视角出发,缺少创新和个性化突破;文案人工创作成本高,当前基本由平台与业务手动创建,依据个人文案创作能力进行输出,缺少丰富文案参考与创意输入;Push平台缺乏对文案的统一沉淀和推荐。历史优秀文案无法及时反馈到文案创建环节,缺乏算法智能化的文案创意。

基于以上问题,业务同学联合淘宝Push算法提出了智能文案生成项目,期望通过文案智能化生产和文案推荐,赋能文案创作、管理、实验、优化各个环节,提升文案丰富程度和更新频率,辅助提升 Push 点击率。

首页 - Wiki
Copyright © 2011-2024 iteam. Current version is 2.125.0. UTC+08:00, 2024-05-03 22:05
浙ICP备14020137号-1 $访客地图$