AI模型架构:BERT
NLP技术在搜索中的应用--query理解在搜索中的应用
query理解在搜索中的应用:本文使用简单易懂的语言、形式化的描述了query理解的定义,并且从一个崭新的角度讲述了之家的搜索query理解的具体实现方法,实现思路比较新颖,独树一帜。
Query理解在美团搜索中的应用
查询理解是搜索引擎与NLP结合的产物,用来解决搜索相关的一些文本理解任务。本文主要介绍了美团查询理解系统中的主要模块,包括实体识别、查询改写、意图识别。
京东到家搜索Query理解体系实践
搜索是京东到家App上主要的流量分发入口,搜索场景覆盖了首页搜索、店内搜索、首页各个频道球搜索以及小程序搜索等各种服务入口,随着用户量快速增长,越来越多的用户在不同场景下使用搜索快速获取自己想要的商品。
美团基于知识图谱的剧本杀标准化建设与应用
本文介绍了美团基于到店综合知识图谱(GENE)从0到1快速建设剧本杀供给标准化的过程及算法方案。
SkyNet:字节跳动泛客诉问题挖掘与风险监控中台实践
随着互联网和智能手机的普及,人们的生活大多时候都离不开移动 App,在信息量与日俱增的大数据时代,用户反馈数据可以帮助发现热点问题、避免安全问题、优化产品体验、提升产品质量等。
SkyNet 天网平台专门聚焦于泛客诉问题数据,包括 App 端内离线反馈、IM(Instant Messaging,即时通讯)反馈、电话热线反馈、举报反馈、各大应用市场评论、App 端内实时评论、内部运营工单等数据,挖掘其中的价值,为各方业务带来收益。
情感分析技术在美团的探索与应用
本文回顾了美团情感分析技术的演进和在典型业务场景中的应用,包括篇章/句子级情感分析、属性级情感分析和观点三元组分析。
Automating Data Protection at Scale, Part 2
Part two of a series on how we provide powerful, automated, and scalable data privacy and security engineering capabilities at Airbnb.
在多模态训练中融入“知识+图谱”:方法及电商应用实践
随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。
阅文 TTS 技术系列-探索篇
有声书市场近3年逐年递增35+%,仍处于增长期;各在线阅读平台重点布局有声书赛道,通过更优质、更多种类的有声内容,吸引并培养用户习惯,拓展市场。 在此背景下,如何增强用户听书代入感,以及如何高效批量生产高质量有声读物,是平台亟需探索的方向。
本文主要介绍阅文TTS合成平台架构,以及如何利用网文领域沉淀的文本算法,对小说进行自动文本预处理,并自动生成多角色、多情感、多场景的结构化画本,同时通过TTS有声书制作平台,将AI画本与TTS语音技术相结合,利用平台化功能如文本精修、添加音效、管理音频等,从而产出高质量的商用多播类有声作品,并在站内外分发投放。
实体链接在小布助手和OGraph的实践应用
精准直达的知识问答能力对营造小布“懂知识、更懂你”的形象非常重要。在语音助手场景,经常会出现一词多义或者口语化表达等问题。例如:李白出装,李白的诗,播放李白。第一李白是指游戏角色,第二个是指诗人李白,第三个是指歌曲李白。如何精确识别用户所指、给出正确的答案是小布助手面临的挑战。
ICBU可控文本生成技术详解
文本生成(Text Generation)是自然语言处理(Natural Language Processing,NLP)领域的一项重要且具有挑战的任务。
携程AI推理性能的自动化优化实践
近年来,人工智能逐渐在安防,教育,医疗和旅游等工业和生活场景中落地开花。在携程旅游业务上,AI技术同样广泛覆盖了多个旅游产品和旅游服务领域,携程度假AI研发根据旅游的特定场景和业务需求,将自然语言处理,机器翻译,计算机视觉,搜索排序等主流AI技术成功应用于旅游度假的多个业务线,例如自由行,跟团游,签证,玩乐和租车等。
从技术角度,为了适应不同的业务场景需求,涉及到多种AI技术,包括传统机器学习,卷积神经网络,Transformer等深度学习模型结构,以及知识图谱和图神经网络等技术领域。同时,为了充分挖掘AI技术的优势,模型设计复杂度日渐提升,包括模型深度,宽度以及结构复杂度等各个维度,计算量的增大使得AI推理性能瓶颈日益凸显,尤其是实时性的业务需求对推理速度要求更高。为了追求最佳推理性能,往往需要手动进行逐个优化,涉及的开发,部署和沟通成本都很高。主要问题集中在:
- 模型结构种类多,性能瓶颈差异较大,适用的优化方法各有不同,手动优化成本高;
- 优化方法众多,自上而下,涉及多种模型压缩方式,系统级,运行时优化等,手动优化门槛高;
- 逐个手动优化,可推广性差,技术覆盖面有限;
- 硬件平台的差异,需要针对性调优,导致优化的人力成本和部署成本都很高;
- 新模型的发布和迭代,需要应用优化方法,涉及较高的沟通和接入成本,同时带来了性能的不稳定性;
- 模型压缩技术对不同模型的优化效果有所差异,可能需要进行模型的再训练,训练和数据准备流程较长,效率低下;
因此,为了降低优化,部署和迭代成本,提高工作效率,并保证性能稳定,我们尝试搭建模型自动化优化平台,旨在为算法模型提供更全面易用,稳定性更好,使用和维护成本更低的优化解决方案。
语义相似度在好大夫搜索的优化探索
本文记录了好大夫在线在搜索业务上优化问答搜索相似性效果的探索和落地。
Introducing LinNét: Using Rich Image and Text Data to Categorize Products at Scale
We reevaluated our existing product categorization model to ensure we’re understanding what our merchants are selling, to build the best products that help power their sales.
弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
探索采用非人工标注文本数据的方式来建立训练数据集的可行性。
小样本学习及其在美团场景中的应用
美团的各个业务有着丰富的NLP场景,而这些场景中模型的构建需要很多的标注资源,成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法,并在美团场景进行了实验,效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。