机器学习模型:BERT
美团基于知识图谱的剧本杀标准化建设与应用
本文介绍了美团基于到店综合知识图谱(GENE)从0到1快速建设剧本杀供给标准化的过程及算法方案。
SkyNet:字节跳动泛客诉问题挖掘与风险监控中台实践
随着互联网和智能手机的普及,人们的生活大多时候都离不开移动 App,在信息量与日俱增的大数据时代,用户反馈数据可以帮助发现热点问题、避免安全问题、优化产品体验、提升产品质量等。
SkyNet 天网平台专门聚焦于泛客诉问题数据,包括 App 端内离线反馈、IM(Instant Messaging,即时通讯)反馈、电话热线反馈、举报反馈、各大应用市场评论、App 端内实时评论、内部运营工单等数据,挖掘其中的价值,为各方业务带来收益。
情感分析技术在美团的探索与应用
本文回顾了美团情感分析技术的演进和在典型业务场景中的应用,包括篇章/句子级情感分析、属性级情感分析和观点三元组分析。
Automating Data Protection at Scale, Part 2
Part two of a series on how we provide powerful, automated, and scalable data privacy and security engineering capabilities at Airbnb.
在多模态训练中融入“知识+图谱”:方法及电商应用实践
随着人工智能技术的不断发展,知识图谱作为人工智能领域的知识支柱,以其强大的知识表示和推理能力受到学术界和产业界的广泛关注。
阅文 TTS 技术系列-探索篇
有声书市场近3年逐年递增35+%,仍处于增长期;各在线阅读平台重点布局有声书赛道,通过更优质、更多种类的有声内容,吸引并培养用户习惯,拓展市场。 在此背景下,如何增强用户听书代入感,以及如何高效批量生产高质量有声读物,是平台亟需探索的方向。
本文主要介绍阅文TTS合成平台架构,以及如何利用网文领域沉淀的文本算法,对小说进行自动文本预处理,并自动生成多角色、多情感、多场景的结构化画本,同时通过TTS有声书制作平台,将AI画本与TTS语音技术相结合,利用平台化功能如文本精修、添加音效、管理音频等,从而产出高质量的商用多播类有声作品,并在站内外分发投放。
实体链接在小布助手和OGraph的实践应用
精准直达的知识问答能力对营造小布“懂知识、更懂你”的形象非常重要。在语音助手场景,经常会出现一词多义或者口语化表达等问题。例如:李白出装,李白的诗,播放李白。第一李白是指游戏角色,第二个是指诗人李白,第三个是指歌曲李白。如何精确识别用户所指、给出正确的答案是小布助手面临的挑战。
ICBU可控文本生成技术详解
文本生成(Text Generation)是自然语言处理(Natural Language Processing,NLP)领域的一项重要且具有挑战的任务。
携程AI推理性能的自动化优化实践
近年来,人工智能逐渐在安防,教育,医疗和旅游等工业和生活场景中落地开花。在携程旅游业务上,AI技术同样广泛覆盖了多个旅游产品和旅游服务领域,携程度假AI研发根据旅游的特定场景和业务需求,将自然语言处理,机器翻译,计算机视觉,搜索排序等主流AI技术成功应用于旅游度假的多个业务线,例如自由行,跟团游,签证,玩乐和租车等。
从技术角度,为了适应不同的业务场景需求,涉及到多种AI技术,包括传统机器学习,卷积神经网络,Transformer等深度学习模型结构,以及知识图谱和图神经网络等技术领域。同时,为了充分挖掘AI技术的优势,模型设计复杂度日渐提升,包括模型深度,宽度以及结构复杂度等各个维度,计算量的增大使得AI推理性能瓶颈日益凸显,尤其是实时性的业务需求对推理速度要求更高。为了追求最佳推理性能,往往需要手动进行逐个优化,涉及的开发,部署和沟通成本都很高。主要问题集中在:
- 模型结构种类多,性能瓶颈差异较大,适用的优化方法各有不同,手动优化成本高;
- 优化方法众多,自上而下,涉及多种模型压缩方式,系统级,运行时优化等,手动优化门槛高;
- 逐个手动优化,可推广性差,技术覆盖面有限;
- 硬件平台的差异,需要针对性调优,导致优化的人力成本和部署成本都很高;
- 新模型的发布和迭代,需要应用优化方法,涉及较高的沟通和接入成本,同时带来了性能的不稳定性;
- 模型压缩技术对不同模型的优化效果有所差异,可能需要进行模型的再训练,训练和数据准备流程较长,效率低下;
因此,为了降低优化,部署和迭代成本,提高工作效率,并保证性能稳定,我们尝试搭建模型自动化优化平台,旨在为算法模型提供更全面易用,稳定性更好,使用和维护成本更低的优化解决方案。
语义相似度在好大夫搜索的优化探索
本文记录了好大夫在线在搜索业务上优化问答搜索相似性效果的探索和落地。
Introducing LinNét: Using Rich Image and Text Data to Categorize Products at Scale
We reevaluated our existing product categorization model to ensure we’re understanding what our merchants are selling, to build the best products that help power their sales.
弱监督学习框架 Snorkel 在大规模文本数据集"自动标注"任务中的实践
探索采用非人工标注文本数据的方式来建立训练数据集的可行性。
小样本学习及其在美团场景中的应用
美团的各个业务有着丰富的NLP场景,而这些场景中模型的构建需要很多的标注资源,成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法,并在美团场景进行了实验,效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。
vivo知识图谱构建的工程化设计和实现
作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供理解支撑,目前已经成为人工智能研究中越来越重要的领域。
挖掘旅游热点吸引年轻人,携程自动热点投放系统的背后玩法
从2017年开始,携程用户搜索时使用的关键词发生了一些有趣的变化:虽然传统的热门目的地词如“上海、北京”依然占比很高,但是大量长尾词如冷门景点、新兴景点也开始在搜索热词榜上占据一席之地。
对此团队进行了相应的数据分析,发现这些长尾词的急剧上升与一些外部热点如微博热搜,抖音网红,小红书热门文章等呈现正相关关系。对这个问题深入研究后发现,随着互联网用户的年轻化,网民们探索问题的热情明显变高,认知闭合(cognitive closure)度高的用户数量开始快速上升,他们在外部媒体获取到了目的地的热点和信息后,有意愿来专业旅游网站获取更多的目的地资讯,减少不确定性。因此大量用户会搜索长尾词。
淘宝视频内容标签的结构化分析和管理
随着5g时代的到来,视频内容形态迸发出勃勃生机,各大短视频app获得的巨大成功、淘宝短视频完成的种草和成交转化都说明短视频承担着商品介绍、图文内容等其他形式不可替代的重要作用。
淘宝内经过多年的沉淀,已经积累了上亿的视频。如何深入理解视频内容,对视频内容完成结构化分析和管理,对海量视频的管理和分发有着重要影响。完成视频内容的算法理解,可以对不同兴趣特点的用户分发符合他们兴趣意向的视频,从而提升用户时长和成交转化。由于视频内容是一种多模态的信息结构,包括视觉、文本、语音、商品等信息,如何提取多模态特征并进行融合理解,这也对内容理解算法提出了极大的挑战。