图片来源:https://marketing.chron.com/what-we-do/rich-media
富媒体内容(Rich Media Content,简称富内容),是指具有视频、声音、文字等多种载体的综合性信息形式,主要包括短视频、直播等等。相比于传统的文章、图片、音乐等单一载体的内容,在“注意力经济”的时代,富内容是能够最大限度传递信息、吸引消费者注意力的内容形式。并且因其丰富的呈现形式(图文声并茂,可搭配各种玩法、特效),成为平台创作者(达人、艺人等)最佳的表达工具。
相比起音乐、影视等“经典”内容,富内容,尤其是UGC向的富内容,对冷启动有着极高的要求,主要有以下原因:
想要针对性的解决问题,首先需要检查一个推荐系统是否对新内容有系统性的偏差。这里列举两种常用的方法:(一)时间维度的校准分析 校准(Calibration)是广告推荐中常用的分析技术,主要用来检查特定人群/物料下的模型评分与真实转化效果是否有系统性偏差。在冷启动问题这里,也可以用来检查对新/老内容的模型评分是否有系统性偏差。
上图为我们对云音乐短视频推荐所做的新视频校准分析,按照新/老内容和新/老用户进行模型评分与实际转化率的交叉分析。我们可以看到,在纠偏之前,新内容存在严重的系统性偏差,其打分是被系统性低估的。
(二)内容生命周期曲线 冷启动问题也可通过对特定内容的分发生命周期进行监控发现。具体讲,一个内容如果在早期阶段维持较高的转化率,但是分发量却一直处于较低水平,直到很长时间才实现有效的大量分发,那么系统很可能存在冷启动问题。
上图为某条内容分发量(蓝色)与CTR(橙色)随时间的变动。可以看到,在专门构建冷启动策略之前,优质内容的自然分发量是缓慢爬升的。
互联网上关于冷启动方法的介绍已经较为丰富了,许多经典方法(比如Bandit策略、基于标签的新内容召回等等),在此也不再赘述。本文主要针对富内容特有的两个冷启动技术进行介绍:冷启动与上升通道在富内容上天然的结合;以及基于跨模态技术的内容理解。
推荐系统中的内容上升通道是为了最大限度催生出优质内容,而对内容进行的层层选拔、上升,直至推出爆款内容的分发策略。
上图为某平台的内容上升通道(图片来自网络)。我们以此为例进行说明:推荐系统首先从内容池中选取内容进行第一阶段的分发测试,提供300左右的曝光量,之后按照数据标准进行筛选,符合标准的会进入第二阶段并且获得更大曝光量,以此类推,直至成为全网爆款。
对富内容的推荐系统而言,如前所述,为了强化平台推陈出新的效应,一般只会对最新发布的内容进行上升。因此新内容冷启与上升通道便自然的结合起来。
与抖音类似,网易云音乐短视频业务也构建了类似的内容上升通道,并且根据网易云音乐的特点,还可以根据热门歌曲进行辅助上升。下面介绍几点实践经验:(1)从早期的个性化到最后阶段的“破圈”。上升通道早期的海选阶段,内容数量庞大而质量参差不齐,应当尽量走个性化分发。到了后期,上升出的爆款开始具备“破圈”属性,对个性化的需求开始降低,必须大胆的把内容推荐给更多的用户群体。(2)新内容应当优先分发给高活用户,避免不确定性的新内容劝退心智本就不强的低活用户。在流式消费体验下(不论是单列全屏流还是双列瀑布流),越往深处的曝光越属于高活跃度用户,算法在分发上按比例扩大流量位置深处的新视频分发量,便可实现这一点。
上升通道技术,互联网上最先由抖音等短视频平台提出,时至今日,已经成为各大富内容平台必不可少的技术框架,某种程度上代表了一个平台对内容的价值观:推陈出新、鼓励原创。上升通道的分发效率高低,也成为了冷启动成败的关键。
如果说上升通道是新内容冷启动流量的保证,内容理解则是流量利用效率的关键,是新内容个性化分发的主要依靠。这其中,富内容因其跨越图片、视频、文字等多个类型,对内容理解有着最高的要求,也成为跨模态技术应用的舞台。
跨模态技术的主要作用是将不同模态的内容进行信息提取(表征),并且根据下游推荐系统进行信息整合。
第一:信息提取。之前流行的技术是各个模态单独进行内容向量的表征(比如图片模态采用ResNet或者Swin Transformer,文本模态采用Bert),最近的技术提前到信息压缩阶段,就开始对各个模态的信息进行整合。比如现在流行的框架CLIP,将图片与文字构建pairwise sample,并且采用matching loss进行模型的训练,统一产出图片和文本的向量表征。
上图为CLIP等框架下的matching loss:将互相配对的图片和文字进行打乱,构建正负样本
第二:与下游推荐的信息整合。推荐系统下游的行为数据在跨模态信息整合中起到了关键的监督作用。这里简述几种信息整合的框架:
具体到云音乐的跨模态进展,我们在多个方面都进行了实践,并且取得了一定的正向结果:
云音乐视频推荐双塔模型框架相比于CB2CF的效率提升,蓝色为基于双塔模型框架的I2I召回,绿色为基于CB2CF的I2I召回
内容冷启动对一个推荐系统的意义不仅仅局限于点击率的优化,更多是与一个平台对内容分发整体的价值观相关联。基于不同内容冷启动流量分配策略,对平台最终生态的影响,也是值得深入研究的方向。云音乐在这方面也取得了一些很有意义的结果。另外,跨模态技术的研究,相比下游的推荐系统,依然处于初级阶段。通过技术手段降低内容入库(审核+打标+冷启动)对人工的依赖,还有广阔的提升空间。
本文发布自网易云音乐技术团队,文章未经授权禁止任何形式的转载。我们常年招收各类技术岗位,如果你准备换工作,又恰好喜欢云音乐,那就加入我们 staff.musicrecruit@service.netease.com 。