作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年,我们通过在视频生成、图文联合生成等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。
第三篇《OpenAI o1模型的前世今生》
第四篇《多模态人物视频驱动技术回顾与业务应用》
第十二篇《音频生成技术探索与淘宝域实践》
作为一种新的商品表现形态,内容几乎存在于手淘用户动线全流程,例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年,我们通过在视频生成、图文联合生成等核心技术上的持续攻关,AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验,我们将开启一段时间的内容AI专题连载,欢迎大家一起交流进步。
第十二篇《音频生成技术探索与淘宝域实践》
在电商领域中,短视频表现出了极高的商业价值,它能够迅速抓住用户的注意力。与此同时,通过鲜明的视觉和听觉元素,短视频能够在短时间内生动地演示商品特性,呈现出逼真的使用场景以及分享真实的用户体验。这种场景化、身临其境的展示方式显著增强了消费者的购买信心,从而有效地提高了转化率。通过短视频,消费者仿佛置身于一个虚拟的购物环境,与商品进行近距离的接触和了解,从而促进其购买决策的达成。
然而,制作高质量的短视频往往需要较高的成本和较长的制作周期,这种从零开始的制作方式很难满足如淘宝这样的大型电商平台对短视频的巨大需求。淘宝内部拥有海量的视频、图片素材。如果能够通过利用先进的人工智能算法将这些现有素材转化为短视频,将会极大地缓解淘宝在短视频需求上的压力。
基于这一背景,淘宝内容AI团队创新性地搭建了三套针对不同源素材的短视频生产方案:
看点剪辑:这一方案旨在从海量的直播中提取出关键片段,生成精简而又富有吸引力的短视频。通过这种方式,不仅能够充分利用现有的直播素材,而且能够快速生成符合用户喜好的短视频内容。
混剪视频:此方案专注于利用商品原始素材,通过智能化的编辑和合成,为每个商品制作专属的解说视频。这种方式能够帮助消费者更全面地了解商品的细节和功能特性,增强用户体验。
营销视频:从站内外的达人带货视频中提取单品的营销视频。这种方式通过对达人带货视频进行分析和提取,制作出针对特定商品的营销内容,使消费者能够快速了解产品的亮点和优势,促进购买行为。
看点剪辑
直播作为一种实时变化的内容形式,与手淘其他内容有较大差异。在商家侧,其在不同场次间的挂品往往较为相似,因此没有重复讲解同一商品的意愿。在经营层面,直播内容的生命周期较短,商家主播普遍反馈缺乏有效的经营手段。在用户侧,由于主播讲解商品在快速变换,经常会发生用户点进某直播间,但对实时讲解商品不感兴趣,或者虽然对该商品感兴趣,但却需要较长时间才能获取到自己感兴趣的信息点的问题。看点剪辑是对直播的二次创作,可以在短时间内展现更生动有趣的商品使用和体验过程。但是对于商家来说,看点剪辑在剪辑手法和剪辑内容上有一定的门槛,且无法很好地满足快速智能化直转短的要求。
一场直播一般在1-2小时,解析得到的直播看点一般在5-10分钟,短视频时长是 30s~60s,而用户的注意力停留往往只有3-5s。在这样的限制下,如何使视频在短时间抓住用户注意力,尽可能体现商品核心卖点,是看点剪辑的重点。我们通过提升看点剪辑的质量,打通高效分发的链路,形成引流、创作、分发的正向循环。最终目标是提升直播转短视频的质量,提升用户体验。
问题定义
我们需要解决的问题是将冗长的5-10分钟直播看点视频高效转化为更精简、更具吸引力的短视频,同时结合商品的丰富信息,例如主图、主图视频及其他相关可用素材,以进一步增强视频的营销效果。具体来说,我们的目标是输出一段仅30秒到60秒的高光视频,其中包含最能吸引观众注意力的片段,并以高信息密度展示商品的核心卖点。
这个流程图展示了我们基于自研的多模态大模型的直播看点转短视频的过程,综合考虑了视频和文本内容,强调商品的核心卖点,最终自动生成高度吸引人的短视频。
输入:直播看点、视频帧、ASR
视频素材生成:结合文本和视觉信息,生成精简文案、标题、商品卖点及吸睛视频片段
短视频合成:视频合成模块,将上述所有视频元素整合到30秒到60秒的短视频
比如服饰行业,尺寸,颜色,材质,特点
比如食品行业,口味、口感、原材料、工艺、包装方式
比如美妆行业,功效、成分、适用群体
同时,为了减少线上资源消耗并且提高服务速度, 我们也采用了模拟蒸馏和偏好蒸馏技术。这些技术的核心在于将大模型中复杂的知识迁移到更小、更高效的模型中,保持模型性能的同时减少计算资源的消耗。通过这种知识迁移策略,我们在显著降低计算压力的同时,确保小模型在实用场景中仍具高效和精准的表现。这不仅提高了系统的响应速度,还优化了资源的利用,增强了整体服务的可扩展性和可靠性。
脚本定制化
为了更好地适应不同商品类目的特点,我们会根据直播商品的类别进行短视频脚本的定制化。
在涉及服饰的直播中,主播通常会亲自试穿,并详细展示服饰的各个细节。因此,在短视频的开头部分,我们会精选主播展示服装的视频片段,用这种直观的视觉吸引用户的注意力。这种方式不仅能够立即引发用户的兴趣,还符合用户在线上购物时希望看到真实试穿效果的心理需求。
对于食品类商品,我们则采用不同的方法。短视频的开场会以主图视频的形式集中展示食物的外观和质地,并结合主播的真实声音讲述,以增强观众的感官体验。这种结合视觉和听觉的手法,可以有效地将潜在用户带入真实的消费场景,使他们更容易想象食物的实际口感和品质,从而激发购买欲望。
通过这样的脚本定制化,我们确保每类商品都能在短视频中最大化地展示其特性和吸引力,从而提高用户的观看体验和转化率。
凭借着对直播看点内容的结构化理解,我们对冗长的直播看点进行精简,生成了包含商品核心卖点并且吸引人的短视频。该方案已支持淘宝线上圈定人群全类目的看点剪辑,日生产智能看点剪辑十万量级,一审通过率提升12pt。
淘宝本身拥有海量商品数据,商品信息包括丰富的视频、图片、文本描述,然而商家上传的视频大多为长视频,信息冗余,无法直接当做短视频投放。我们团队依托过去几年在内容理解、自然语言处理、多模态大模型以及语音合成等领域的技术积累,开发了一套端到端的商品混剪视频生产方案,该方案能够为淘系商品生成适应不同业务场景的、视听结合的有声短视频。
素材治理
我们基于ODPS、MetaQ、OTS等强大的中间件能力搭建了一个强大的素材引擎。实际上,素材治理不仅是混剪视频业务独有的需求,除上图中的算法模块外,还支持图片OCR、商品行业分类等算法。基于该引擎,能够有效缓解商品重复请求带来的计算资源浪费的问题。
素材生成
你们有没有早上不想做饭的时候?我最近发现了金沙河的这款挂面,不仅原味的劲道爽滑,鸡蛋挂面特别香,还有龙须挂面超细超贴心,速食又好吃,关键是5斤装超耐用!每次煮碗面,暖心又温暖胃,强烈推荐给大家!
多模态匹配
我们的模型选择和训练策略受到BLIP-2的启发。BLIP-2提出了一种通用、有效的预训练策略,利用现有的冻结图像编码器和大语言模型来推动视觉-语言的预训练。BLIP-2通过轻量级的Q-Former来弥合不同模态之间的差距,并采用两阶段的训练策略。第一阶段通过冻结的视觉编码器启动视觉语义表征学习,第二阶段则利用冻结的语言模型进行视觉到语言的生成学习,具体的结构细节可参阅相关论文。
混剪视频方案双十一期间在巨浪外投场景投放视频,消费指标相比视频大盘获得显著提升,覆盖巨浪的多个投放场景。
该方案专门设计用来优化信息流场景下视频内容的展示效果。目前站内有大量达人带货营销视频,这些视频在吸引观众眼球和推广产品方面表现出色。但与此同时,它们也存在一些显著的问题,如会出现多个商品的介绍,且有较多的冗余信息,不满足信息流视频对应到单个商品、直入主题、内容精炼的要求。此外,还会存在画面、文本等信息不符合信息流展示标准的情况,因此,需要对其进行智能剪辑,以适应信息流场景。
原视频 | 剪辑视频1 | 剪辑视频2 | 剪辑视频3 |
输入为内容营销视频,以及视频对应的挂品。输出为每个挂品从视频中所裁剪出的片段,要求出现的商品信息尽可能完整,且不出现其他品的介绍,同时排除各类敏感信息。同时,输出的视频需要保证开头和结尾自然,不应有突兀的开始或结束(对于句粒度和字粒度均如此),也不应有多余的画面。
由于原视频并非都是规则地将商品逐个展示并介绍,视频质量也参差不齐,因此需要更具一般性的剪辑方法。同时,由于单日生产量相对较少,对于视频剪辑的精细程度可以有更高的要求。
视频剪辑的基本方案是利用视频的ASR得到视频信息与时间轴的对应,然后通过大语言模型的能力识别与商品相关的片段,从而裁剪出对应视频。然而,仅简单应用该方案,将导致出现由于多种原因而产生的bad case。为解决这一问题,我们设计了以下流程,并从流程中的各个模块入手来进行优化。
输入视频通常在单个视频中包含多个商品,需要对其进行准确区分。然而,仅依靠ASR文本理解往往不足,因为缺乏视觉模态信息。这一局限性可能导致难以察觉主打商品的转换,特别是当达人直接进入商品描述而不明确强调基本商品信息时。此外,ASR在识别商品名称时的不准确性进一步增加了语言模型理解的复杂性。因此,引入视觉模态信息变得至关重要。
我们主要采用多模态模型(MLLM)进行图像理解。具体而言,首先从视频中提取帧并选择大致范围。随后利用MLLM将该范围内的帧与商品主图进行比对。一旦识别出与商品大致匹配的帧,我们进一步将该帧与其他帧进行比较(这一两阶段方案是由于视频中的SKU不一定与主图一致)。这一过程使我们能够定位所有展示该商品的帧。考虑到不同商品的出现帧可能存在交叉,因此还需要进行信息交互,以确定每个商品的非重叠视频片段。最后,我们利用LLM对这些片段进行扩展,以确保商品信息的完整性。
在视频剪辑中,ASR 不仅用于获取视频语义,还用于内容的时间轴定位。ASR一般使用小型NLP模型进行断句,由于模型能力局限可能出现断句错误,进而影响剪辑视频的起止选帧,导致视频呈现不自然。因此,我们直接使用字粒度的 ASR,即获取每个字对应的时间轴,然后通过 LLM 进行断句,并结合 OCR 信息进行优化,以尽量修正 ASR 的识别偏差。
优化前 | 优化后 |
我用的是 kiss me 的温柔米棕,它的膏体很顺滑,细腻不会结块,涂上呢会让整个妆容看起来更加和谐。就算是我这种深发色染上也不会觉得涂混淡眼。真的。iphone 眼影先用浅色打底,叠加裸杏色晕染,在双眼皮褶皱处和下眼睑画一个肉嘟嘟的卧蚕拉出眼线,再贴一个全系假睫毛。 | 我用的是kiss me的温柔米棕。它的膏体很顺滑,细腻,不会结块。涂上呢,会让整个妆容看起来更加和谐。就算是我这种深发色染上,也不会觉得涂混,淡眼真的爱疯。眼影先用浅色打底。叠加裸杏色,晕染在双眼皮褶皱处和下眼睑。画一个肉嘟嘟的卧蚕,拉出眼线,再贴一个全系假睫毛。 |
出于对视频质量的要求,视频首尾既不能包含多余画面,也不能有显著截断,这需要精确确定视频的首尾帧。经过上小节优化的ASR时间轴可作为视频裁剪的基础,但仅依赖于ASR仍然会出现画面多余或截断的现象,主要问题在于两句话之间的无人声过渡部分的剪切应如何处理。对此,我们结合了视频画面信息,以进行更精细的裁剪。
我们使用轻量的解决方案,在画面跳变幅度超过阈值时,即判定语句切换。然而,仅检测全局画面可能忽略细节,尤其是字幕的切换难以识别,导致剪辑后的视频出现不必要的字幕变化,显得不自然。因此,对于包含字幕的视频,我们结合 OCR 和 ASR 信息以明确画面中的字幕区域,依据该区域的跳变进行裁剪,从而基本解决了上述问题,提升了剪辑效果。
敏感信息可能出现在视频的口播内容和画面中。对于口播内容,我们在得到初版选段后,利用 LLM 对敏感信息进行精细过滤,删除含有敏感信息的语句,并合并剩余段落(每段落均使用上述精确选帧方法进行裁剪,更有效地防止敏感信息的泄露)。对于画面中的敏感信息,如含价格信息的贴片,我们使用 OCR 识别后,对相应区域进行打码处理。
内容营销视频剪辑方案已初步投入应用,预计后期每日生产视频500+条。
视频生成方案旨在充分利用淘宝现有的素材资源合成短视频,能够极大增加淘宝的短视频的丰富性。这一举措在未来的发展中具有非常广阔的业务前景,能够显著提高商品展示效果。当前,AIGC技术正在快速发展,它为视频生成方案引入了更多的创新和可能性。通过将AIGC算法融入到视频生成中,我们能够创造出新颖独特的视频内容,以此推动技术与业务的深度融合。这种技术创新不仅能提高内容的多样性和吸引力,还能为用户带来更加沉浸的体验。展望未来,我们计划进一步优化现有的视频生成方案。我们也将深入探索AIGC技术在视频生成中的应用边界,以便找到更多落地场景和使用案例,更积极地影响淘系的业务发展。我们始终致力于用技术为业务赋能,打造具备更高附加值的产品和服务,进而实现与合作伙伴和用户的多赢