AI模型架构:BERT
58黄页标签提取及海量多分类优化
58黄页是一个用户找服务的平台,主要靠商家发帖,用户通过帖子找服务。但商家的帖子标题描述及用户的评价等都是纯文本的,不是结构化的数据。用户检索时无法对帖子核心内容进行突出展示,召回等。由此,需要从文本里提取标签,标签是通过对帖子内容分析得到的高度精炼的特征词或短语,将帖子内容标签化可以突出帖子特性,实现帖子内容结构化,帮助用户更快定位到所需要的服务,提升用户体验。
情感计算在ugc应用进展
观点、情感以及与之相关的许多概念,如评价、态度、感情和心情,与我们主观的感觉和感受密切相关。我们对于现实世界的感知和感受,包括我们做出的任何选择,也很大程度上受到他人对于当前世界的洞察和观点的影响。情感分析伴随着网络社会媒体(如评论、论坛、微博、新闻资讯网站)的兴起而快速发展。这些也被称为用户生成内容(ugc)的社会媒体数据,社会媒体中用户生成内容蕴含了大量的用户观点信息,要从中挖掘有用知识需要对情感计算与观点挖掘问题进行研究。自2000年来年初以来,情感计算已称为自然语言处理领域最活跃的研究问题之一。情感计算系统几乎在每一个企业、卫生机构、政府乃至整个社会都有广泛应用。
中文NER碎碎念—聊聊词汇增强与实体嵌套
各平台关于NER技术介绍的文章已经非常多,本文并不以指标增长为目标,而是从先验知识融合与嵌套实体问题两方面讨论,希望可以从这两个方向的工作中获得解决其他问题的启发
BERT在网易新闻时效性上的应用
如何根据具体的任务情景来调整BERT模型以更好判断在判断新闻时效性?本文做出了如下探讨。
智能预警在风控场景中的实践与思考
本文以58信息安全风铃监控预警系统为原型,重点从线上数据生产到指标计算、存取、阈值设置的角度介绍一些实践中的通用技术点,以解决信息安全风控对抗过程中在高并发情形下面临的问题和挑战。
高德POI数据生产中的计算机视觉技术
高德有7000万以上的POI(Point of Interest,兴趣点)数据。每年还会出现很多新增的POI,也会有一部分POI停止营业、关门倒闭。这些POI如何制作和更新?从采集方式来看会有很多获取POI的方式,有一种重要而且直观的采集方式,高德通过众包方式采集街边店铺的图像,利用计算机视觉技术(以及人工辅助)从图像中提取POI数据。
下图演示了一次众包化采集过程。高德的采集人员从这条街走过,拍摄连续图像。最后把图像和GPS坐标,上传给高德。
对话交互:封闭域任务型与开放域闲聊算法技术
小布助手架构是融合了任务型、知识问答型、聊天对话型的综合对话系统。
iFeedback智能分类
iFeedback智能分类系统,提供了基于BERT模型分类和基于规则分类两种模式,通过对海量用户反馈进行快速自动化分类/打标签,提高了问题跟进和反馈分析处理的效率。
帮帮商家版智能问答模型优化实践
58同城是国内最大的生活服务信息服务平台,连接着数千万C端用户和数百万B端商家,为了提升B端商家和C端用户的有效连接,基于智能对话机器人我们构建了帮帮智能客服商家版,其中一项功能为在微聊中对用户问题进行智能回复。
基于深度学习的短文本相似度学习与行业测评
相比于长文本的相似度计算,短文本的相似度计算存在更大的挑战。
AI落地场景探索:医学报告单结构化
在好大夫在线每天的线上问诊中,包含了大量的各种医院报告单、化验单等图片,如何识别并格式化这些报告单数据,成了我们面临的一大难题。
帮帮商家版黄页微聊代运营中的商机槽位识别实践
帮帮商家版黄页代运营中的商机识别原理实践
智能客服新三网场景问答模型优化实践
帮帮智能客服是58同城自主研发的智能客服系统,新三网场景是58智能客服在房产领域垂直深耕的一个典型场景。该场景面向的是赶集网、安居客、58同城的房产经纪人用户。随着新三网使用量的增加我们对新三网场景的问答模型进行了迭代优化,为用户提供更加准确、快速、高效的服务,以节省人工客服成本,提高人效。
闲鱼是怎么让二手属性抽取准确率达到95%+的?
让算法“读”懂二手商品。
文本预训练模型在信息安全场景的探索和实践
本文介绍文本预训练模型在信息安全场景的一些探索和实践,主要聚焦于对话文本分类。信息安全场景种类繁多,其中一项具体业务是对用户提交的举报内容进行审核,判断被举报对象是否有违规问题。用户提交的举报材料有多种形式,而双方沟通的文字对话记录是一项关键证据。少量的对话文本可以通过人工的方式进行审核,而更大量、更快速的识别还需要借助算法。
搜索中的Query扩展技术(二)
Query扩展是搜索技术中重要的组成之一,本文探讨了当Query较长时,我们除了处理实体词,还需要注意些什么。