2016年及以前:利用文本挖掘算法,从用户输入的标题/描述中提取出结构化信息。
2017年:文本属性依赖用户输入。遗憾的是大部分闲鱼用户输入相当"简洁"。于是我们把目光转向图片:1)从商品图片中提取结构化信息。2)根据商品图片预测商品类目。
2018年:2018年以前闲鱼类目处于刀耕火种的原始状态,发布时需要选择商品应该在哪个类目之下。所以我们建立了闲鱼渠道类目,将类目映射到渠道类目。另一个尝试就是将闲鱼商品直接与天猫的SPU(Standar Product Unit,标准产品单元)映射。
2019年:启动了哥伦布项目,进一步挖掘图像潜力。通过图像相似度识别,直接将闲鱼商品和淘宝/天猫商品进行关联,通过对淘宝同款的结构化信息清洗得到闲鱼商品的结构化信息。
端侧智能发布。商品发布过程中,充分利用端侧计算能力,将商品结构化的产品问题,转变成同款商品匹配这样的技术问题。模糊检测,相似度检测,主体识别这些算法都是在端侧实现的。
算法图像识别。商品发布完成后,借助图像识别算法,对于精度较高的识别结果直接和商品建立映射关系。
售卖项目。当图像识别算法只能缩小范围而无法精确给出结果时,借助于售卖任务体系,可以让用户选择完成同款关联。
同款覆盖率。覆盖虽然提升比例较大,但离目标还有一定的距离。
同款精度。1)部分类目精度低,比如手机和手机壳在图像上相似,但实际是不同的商品。2)整体精度离目标仍有较大gap。
结构化信息应用。目前只应用在了搜索场景的商品扩招回,结构化信息的应用仍有待充分挖掘。
算法多模态。集团有着众多在各自领域深耕的图像算法团队,比如在女装等垂直类目上沉淀深厚的专家系统。融合多算法团队能在一定程度上提升算法能力的天花板。
文本识别。在下面的case中,单纯凭借图片无法识别是否是同款,因为图像确实非常相似,这个时候就需要文本的辅助。
输入辅助。文本识别模型依赖用户的输入。输入辅助引导用户输入更多高质量文本的同时降低用户描述成本。另一方面输入辅助也可以承担部分属性补全的能力。
如何定义结构化。本质上是结构化标准的问题,一方面相同的商品算法识别出来的结果千差万别,相同的商品不同算法识别出来的结果最终如何归一化成相同的同款。另一方面对于算法覆盖不到的领域如何通过其他手段来完成结构化。
算法多模态接入成本飙升。如何抹平多算法之间的差异,算法对大盘的贡献,各个算法之间的效果快速上线对比?
输入辅助。输入辅助需要解决2个问题:1)输入联想素材池来源。2)用户体验,输入辅助对实时响应有着非常高的要求。
闲鱼vid体系重新定义结构化标准。
算法多模态接入,提升覆盖&精度。
引入规则引擎,服务于输入辅助等场景。
结构化数据持久化&特征计算,提升搜索推荐等导购场景的匹配效率。
天猫spu体系。天猫的spu运营到现在,数据体系已经较为完善,标准品类和闲鱼有很大重叠部分,这部分可以直接实现spu互通。
对于非标品,从需求侧分析而来。通过搜索推荐等导购场景反向分析可以拿到当前买家关心的品类+属性。这部分可以补齐SPU缺失的数据。
屏蔽数据差异。不同算法数据产生方式的差异,实时/准实时/离线。
数据融合。算法快速上线/数据效果对比/结构化信息入引擎。
算法结果对齐。根据定义的结构化标准,抹平算法结果差异。如果识别出的同款商品本质上是同一个商品,那多算法的识别结果最终应当能归一化。
联想素材池来源:用户输入具有持续时间很短的特征,所以在较短时间内辅助用户进行有价值的输入很关键。
用户体验:严苛的实时性要求。用户输入是一个连续且对时效要求极高的过程,所有数据的交互需在极短时间内完成。
搜索逆向分析产出。根据用户query统计分析,可以得到买家关心的属性。
算法产出:算法对动销高的商品进行特征提取得到,并归到对应的渠道类目上。
运营行业经验产出。
需要算法介入的逻辑放在服务端来完成。
其余逻辑选择适当时机下发给端上执行,这部分需要保证良好的扩展能力。
算法多模态接入能对结构化覆盖占比8%绝对提升。
文本同款正在分桶测试中,从分桶数据来看覆盖上涨13%绝对值提升。
闲鱼技术团队不仅是阿里巴巴集团旗下闲置交易社区的创造者,更是移动与高并发大数据应用新技术的引导者与创新者。我们与Google Flutter/Dart小组密切合作,为社区贡献了多个高star的项目和大量PR。我们正在积极探索深度学习和视觉技术在互动、交易、社区场景的创新应用。闲鱼技术与集团中间件团队共同打造的FaaS平台每天支持数以千万级用户的高并发访问场景。
就是现在!客户端/服务端java/架构/前端/质量工程师面向社会+校园招聘,base杭州阿里巴巴西溪园区,一起做有创想空间的社区产品、做深度顶级的开源项目,一起拓展技术边界成就极致!
*投喂简历给小闲鱼→guicai.gxy@alibaba-inc.com