花名:人可
部门:算法中心图像算法组
入职时间:2016年
主要从事图像算法相关研发工作
服装款式标签技术
互联网中具有海量丰富的数据,除了用户行为数据,电商平台拥有大规模的图像数据。对于蘑菇街来说,对服装图片做分析,具有十分重要的意义。款式标签技术能自动提供电子商务领域的商品属性信息,有利于解决电子商务领域服装信息的人工选择问题。同时能分析实拍图的服装信息,有利于分析用户服装的喜好、风格,以及流行趋势,进而推荐电商平台的商品,缩小用户选择和电商平台推荐之间的差距,增加用户粘性。
总体目标
该技术的任务是根据一份较完善的款式标签体系库,提供一整套标签服务。具体流程包括:输入一副服装图片,通过模型得到具体的分类标签,最终输出服装的各种信息,包括服装的类别和具体的款式等标签信息。该服务要求实时性,且具有一定的准确率。具体任务如图1所示。
图1. 图像标签的任务示意图
总体方案/技术路线
根据款式标签体系库,对所需数据进行人工标注。
用深度学习的算法对标注数据进行模型训练,得到可靠的模型。
部署模型到服务,根据实时性和输出再做调整。
关键技术
1.数据部分
根据关键字在蘑菇街和外网爬取图片,并且对数据进行清洗、标注。我们构建了专门的数据标注平台,且通过抽样检查,保证标注质量。
2.模型训练部分
针对海量数据,用深度学习的方法对模型进行训练。根据初始模型,fine-tune到对应的服装数据集上。尝试了多个网络,最终考虑模型大小和准确率,选取了残差18层网络(ResNet-18)作为基础网络。我们完成了女装全类目的模型训练,包括上衣、裤子、裙子的款式分类,准确率90%以上。
3.服务搭建和模型调整部分
服务输入输出、性能和效果展示:
服务提供统一的http调用方式,运行模型中除了款式模型,还有目标检测模型、鞋子和包包模型、性别模型、颜色模型、元素模型等。一张图的平均处理时间是200~300ms,QPS是26。图2是一张query图片的返回结果示意图。
图2. 标签识别结果的展示
服务逻辑实现
给定一张输入图片,经过目标检测模型,获得上衣、下装、包包、和头部4个目标框;然后再进入分类的模型,得到服装类目、款式、颜色、元素等标签信息。如图2的上衣部分,通过分类模型可得到卫衣(类目)、白色(颜色)、圆领套头卫衣(款式)的标签;下装部分可以得到半身裙(类目)、粉色(颜色)、百褶裙(款式)的标签。具体流程如图3所示。
图3. 流程示意图
根据不同需求,有时候输入除了图片还会有cid。这部分的逻辑实现是:图片过目标检测得到是上衣。然后根据cid(例如:T恤),单独走T恤的款式模型,从而得到具体的款式。但是这种情况仅适合得知蘑菇街内商品cid的图片。
模型调整
标签服务内要加载很多模型。目前我们的模型训练都是在caffe框架下进行的,caffe模型在部署的时候会占很大的显存。如果服务一次性部署很多模型,就会导致GPU卡显存占用极多,不利于有效利用GPU。根据这个情况,我们选择用mxnet部署模型。mxnet框架比caffe框架在显存占用上更合理,通过计算图(Computation Graph)的方式优化显存占用。经测试,单GPU卡单个模型,caffe需要占3167MiB,而mxnet需要占1032MiB,仅为caffe的1/3。在多个模型的服务中,mxnet的优势得到了体现。
另一方面,基础网络模型在卷积层后面会加上batch normalization层做归一化。而这一步的计算其实可以在卷积层内完成。通过把部署的网络和对应的模型调整到去bn层的网络和模型后,一张图的计算时间可以节省25%。
1.App-用户社交圈传图推荐打标签
2.选品后台-运营选品
3.社会化后台-对一条lifestyle内容、穿搭图片进行识别并推荐标签
4.素材库/产品库-对运营收集的图片进行图像自动识别和打标
5.全球街拍库自动打标
6.商家后台自动打标
通过赋予图片更多的信息,来辅助搭配算法、实拍搜索算法等方面的应用。
算法的迭代和改进:让数据流动形成闭环,分析具体bad case,提升模型的实用性;提高服务执行速度,需要在网络上进行改进,减小模型参数,减少模型冗余性等。
作为一名应届毕业生加入蘑菇街的大家庭,我在图像算法组学习到了很多。组内同事都很热心,在工作和生活上都帮助了我很多。
刚从学校毕业的我,对互联网行业了解不多,通过和公司同事的交流,对蘑菇街业务有了比较深入的了解。
对于具体的项目,在做之前要有一个调研的过程,了解基本方法;多尝试新方法,新思路,对整体项目有一个清晰的认识;针对不同的问题,了解问题产生的原因,尽可能解决它。
多和组内同事讨论问题,有时候会产生一些新的认识。
多看一些顶会论文,及时了解学术界和行业内的最新进展。发现新的idea,结合目前项目的问题,可以尝试把idea用到我们自己的项目中。
更多流量、广告、搜索、算法相关内容, 敬请关注“美丽联合数据技术”公众号