公司:58同城
58同城(NYSE:WUBA),简称58,是一家位于中国北京市的生活服务及分类信息网站,以在地服务为主,举凡租房、招聘、交友、水电、二手交易等等,由北京五八信息技术有限公司拥有,创始人是姚劲波,成立于2005年12月12日。该网站是中文最大的生活信息网站,该网站的口号是“一个神奇的网站”。
WebIM原理解析
什么是IM,带你3分钟了解IM的那些事
CRM商机智能分配系统中的多目标排序算法
2020年9月,AI Lab、营销平台部(CRM)、LBG黄页业务方三方联合启动了商机智能分配项目,将CRM商机分配流程抽象为推荐/搜索场景,将传统机器学习以及深度学习算法应用于CRM系统,为每个销售人员分配适合其跟进的商机,优化成单转化,以提高销售团队业绩,进而提升业务线收入。
本文主要分享在上述场景下,精排多目标建模的方法。文章中,首先对读者需要的背景知识进行了适当补充,并阐述了选择多任务深度学习模型进行落地的原因。之后,重点介绍了场景中使用的多目标建模方法,分五个版本将建模过程中使用的多任务学习模型、损失函数、多目标排序方法、模型优化方案等进行了拆解及分享,并展示了每个阶段相比前一阶段取得的线上效果收益。
58本地服务《虚拟类目-标签》体系构建
本文介绍了58本地服务《虚拟类目-标签》体系构建的相关工作,包括虚拟类目生成、标签筛选及挂载、同义去重等内容,我们将实际业务需求转化成机器学习问题,并调研实践相关算法模型完成构建工作。通过逐步上线《虚拟类目-标签》内容,方便用户找到所需服务以提高转化率,实现业务提效的目标。
58同城 HBase平台ZGC应用实践
58同城大数据团队,鉴于目前线上大数据集群各个组件GC方面的问题,考虑逐步在适合的大数据组件上应用高版本JDK上的ZGC,目前已经在HBase集群上成功落地,在某些场景上有比较明显的效果。58同城HBase集群应用的JDK为腾讯公司开源的Tencent Kona JDK11。未来会在逐步应用ZGC的过程中,享受ZGC带来的好处。
Umajs框架react-ssr同构最佳实践方案
Server Side Rendering,缩写为 ssr 即服务器端渲染,在这儿我们不讨论基于传统模板引擎实现的服务端渲染方案;目前业内前端流行的库和框架主要是React和Vue,MVVM类的开发模式和组件化开发思想提高了前端的生产力,使得构建一个web页面变得越来越容易;但也面临了新的问题,主要是首屏加载白屏,SEO两种场景。在业内的解决方案有Nextjs和Nuxtjs分布针对React和Vue技术栈提供了SSR的解决方案,而这两者虽然解决和降低了实现SSR的门槛,但要结合企业级node开发框架使用时,同构方案的集成和使用并不友好。这也是促使我们基于Umajs进行前后端同构方案探索。
58同城--内置图网络化方案探索与实践
Android App包大小优化问题一直是业界一道令人头疼的难题,业界零零散散总结了很多降低包大小方案。目前对于Android包体积优化思路主要手段可以分为三种,资源处理(压缩、混淆、Webp)、代码混淆、AAB分包(Qigsaw 插件)。这三个领域都有一些比较好的实现框架,但是对于内置图片网络化一直没有好的文章或资料供参考。同时由于资源反射的存在,对于App废弃图片优化一直没有好的解决思路,图片网络化对于解决这个问题看起来是一个可行的方案。既然内置图网络化对于包体积优化有一些帮助所以进行了一次探索和实践。这篇文章主要是和大家分享方案调研过程遇到的一些坑以及内置图片网络化主要难点。
58同城--VR图像拼接算法实践
图像拼接是将同一场景的多张重叠图像拼接成较大图像的一种办法。我们常见的手机拍摄全景方式,只能拍摄180度范围,且会出现图像畸变;这种方式不能满足360度甚至720度的全景浏览需求(如安居客的VR看房效果)。本文分享的是一种基于多张图像拼接成完整图像的算法系统,不仅支持VR看房的全景效果,也支持更多场景的图像拼接需求。
NLP在招标项目中的运用与实现
58同城是国内最大的生活服务类信息平台,有着数百万的商家,其中不乏有资质的商家可以参与投标,为了给这些商家提供更多的有效商机和更大的订单量,我们整合了全网招标资源,30+服务行业的招标采购项目至58同城商家版APP平台,在招标服务模块中提供及时有效的本地生活服务领域标书,帮助商家获得最新商机。
文本匹配算法在智能语音机器人中的对比分析实践
本文主要针对经典的文本匹配技术在语音机器人中标准问题匹配上进行实践对比,文中先是介绍了经典孪生网络 SiameseLSTM,BiMPM,ESIM原理及其使用方法,其次是分析对比了Bert 系列预训练模型对标准问题匹配的影响,最后介绍了对抗训练与模型集成等 Tricks在文本匹配中应用,最终在测试数据集下文本匹配准确率从 97.23% 提升到 99.5 %。
转转搭建 iconfont 平台实践
icon 的管理是设计稿转代码过程中,重要但容易被忽视的环节。
所以在实际的业务代码中 icon 问题的解决方案往往也是八仙过海,能用就行。比如导出为 png, svg 格式的文件,在项目中作为静态资源直接引用,或者上传到 CDN 作为外链引用。显然这些方案多少都存在着一些小问题:
- 在用户体验上,包括在高分辨率屏幕上显示模糊、增加额外的 http 请求、异步加载造成页面抖动等;
- 在开发体验上,包括无法通过 CSS 控制样式以便和文本保持一致、难以复用和更新等。
为了解决上述问题,规范一点的做法是把设计稿 icon 转换成 iconfont 字符集,在项目中导入字体文件使用。对于初创团队而言,淘宝免费的 iconfont 网站无疑是快速的解决方案:上传 icon ——生成项目——一键下载,非常方便。然而有几个问题阻碍了它成为企业级的解决方案:
- 一个是项目间无关联,相同 icon 无法复用和统一更新;
- 一个是无法强绑定企业账户,在团队协作和人员更迭交接时不可控;
- 最后一个是 icon 的版权问题,所有人都可以免费使用所有人上传到平台的 icon ,这可能不是公司所希望的。
所以上述的解决方式在项目初期可能确实可以快速解决问题,但随着业务复杂度的指数级别增长,开发周期的拉长,以及项目维护人员的更迭, 这都可能成为后期无法维护的技术债,降低开发效率,影响用户体验。在转转的技术体系中,iconfont 平台作为物料中心建设的组成部分,是不可或缺的一环。
58同城-北斗前端监控系统的挑战与实践
北斗前端监控系统是58集团前端监控基础设施,目标和未来的发展方向是打造前端全技术栈的线上质量监控系统,并对前端各种线上质量数据做整合,最终形成一个前端线上数据平台,对内各业务提供数据服务。在北斗团队不断迭代和完善系统的过程中,我们遇到了很多挑战,这些挑战来源于越来越广泛的业务场景,不断提升的流量负载,以及系统规模不断扩大而引发的维护成本提升。
58同城数据应用指标体系建设
当前数字化运营已经成为企业驱动业务发展的重要利器,但搭建一套数据中台满足产品、开发、运营的日常迭代及开发以及领导的决策,首当其冲面临的一个问题是,企业内部指标间纷繁复杂,如何拨开云雾,统一指标口径,将指标管理得井井有条,成为企业数据治理过程中必须面临的挑战。
本文主要讲解了58商业数据团队数据指标体系如何从构思到实际应用中落地的全过程。
詹坤林:AI技术助力CRM系统智能化
58同城生活服务平台包括房产、汽车、招聘、本地服务(黄页)四大老牌业务,平台连接着海量C端用户和B端商家,B端商家可以在平台上发布房源、车源、职位、生活黄页等各类信息(我们称之为“帖子”),平台将这些帖子分发给C端用户供其浏览,帮助不同业务下的B端商家获取目标用户,助力B端商家获得更大收益。58平台上的B端商家来自于房产中介、二手车商、中小企业、黄页商家等客户,各业务线的销售团队会向这些客户做营销推广,售卖会员套餐,吸引客户成为58商家,客户成为58商家后便可以利用58平台的流量优势获取更多商机。在这样的业务模式下,每年销售团队售卖的会员套餐为58贡献了大量的收入。销售人员会使用客户关系管理(CRM,Customer Relationship Management)系统作业,如何打造智能化CRM,提高销售人员工作效率和业绩至关重要。2020年6月,AI Lab全面接手了CRM智能化算法工作,我们将个性化推荐/搜索、语音、NLP和人机对话技术应用在黄页(本地服务)业务线CRM系统中,助力了CRM系统智能化。
智能问答机器人问答引擎架构实践
58智能问答机器人是由58AI Lab自研的一套人工智能问答系统,结合自然语言处理、深度学习、语义理解、智能推荐等多种人工智能技术,通过自主学习,精确识别用户意图,实现与用户进行智能问答。实现了QABot业务咨询问答、TaskBot任务多轮对话、问答推荐等多种能力。智能问答机器人在帮帮智能客服场景下整体问题解决率以及在帮帮商家版场景下商机转化率都达到了接近人工客服的水平。
星火在CRM商机智能分配场景的应用实践
为了更好地支持销售人员获取商机,CRM系统提供了商销匹配、未覆盖分配、一键申领、新增商机分配、刷新商机分配等多种功能。AI侧使用个性化推荐算法、个性化搜索排序算法,通过直接提高成单链路中间环节的关键指标的方式,来提高最终的成单转化率。
流式和离线语音场景下VAD语音端点检测算法实践
近年来,AI智能语音应用在58同城广泛落地。无论是智能语音交互平台还是“灵犀”智能语音分析平台,都需要对电话语音进行处理分析,服务上层应用。如果把音频信号比作水流,语音端点检测(VAD, Voice Activity Detection)就是控制水流的阀门,其结果决定了系统的后续动作。
本文主要讲述了58自研的VAD系统在流式、离线两大场景中的实践过程,第一部分简单介绍这两大场景,第二部分是对VAD算法的一个概述,第三、第四部分分别描述了流式、离线场景中遇到的不同问题以及解决方案,第五部分是评测结果,第六、第七部分是总结和参考文献。