cover_image

基于AIGC技术的营销短视频生产方案及业务实践

原创淘天内容AI团队大淘宝技术

2025年04月14日 09:41

作为一种新的商品表现形态，内容几乎存在于手淘用户动线全流程，例如信息流种草内容、搜索消费决策内容、详情页种草内容等。过去一年，我们通过在视频生成、图文联合生成等核心技术上的持续攻关，AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验，我们将开启一段时间的内容AI专题连载，欢迎大家一起交流进步。

第一篇《淘宝内容AI团队2024年8篇论文总结》

第二篇《内容AI: 目标驱动的图像生成》

第三篇《OpenAI o1模型的前世今生》

第四篇《多模态人物视频驱动技术回顾与业务应用》

第五篇《视频级虚拟试衣技术在淘宝的产品化实践》

第六篇《大模型时代的内容分析Agent解决方案与业务实践》

第七篇《淘宝全新图生视频大模型“淘宝法象”，助力商家降本增效》

第八篇《大模型时代的视频动静态封面生产方案及业务实践》

第九篇《MLLM在电商域互动内容生产的实践》

第十篇《多模态自动布局技术发展及其在淘内内容场的应用》

第十一篇《AI赋能：大模型创新的模板生成与内容填充》

第十二篇《音频生成技术探索与淘宝域实践》

第十三篇《基于Flow-matching的扩散模型原理解读》

概述

随着智能手机的普及和网络速度的不断提升，消费者在移动设备上观看短视频的习惯已经形成。短视频以其独特的属性，如内容多样、视听结合、即时消费，展现了相较于传统图片和文字更为明显的优势，因而深得广大用户的喜爱。在这些短视频中，用户可以迅速获取信息，享受娱乐，甚至感受到身临其境的体验。这种内容形式不仅满足了用户碎片化时间的需求，同时也成为信息传播的新趋势。

在电商领域中，短视频表现出了极高的商业价值，它能够迅速抓住用户的注意力。与此同时，通过鲜明的视觉和听觉元素，短视频能够在短时间内生动地演示商品特性，呈现出逼真的使用场景以及分享真实的用户体验。这种场景化、身临其境的展示方式显著增强了消费者的购买信心，从而有效地提高了转化率。通过短视频，消费者仿佛置身于一个虚拟的购物环境，与商品进行近距离的接触和了解，从而促进其购买决策的达成。

然而，制作高质量的短视频往往需要较高的成本和较长的制作周期，这种从零开始的制作方式很难满足如淘宝这样的大型电商平台对短视频的巨大需求。淘宝内部拥有海量的视频、图片素材。如果能够通过利用先进的人工智能算法将这些现有素材转化为短视频，将会极大地缓解淘宝在短视频需求上的压力。

基于这一背景，淘宝内容AI团队创新性地搭建了三套针对不同源素材的短视频生产方案：

看点剪辑：这一方案旨在从海量的直播中提取出关键片段，生成精简而又富有吸引力的短视频。通过这种方式，不仅能够充分利用现有的直播素材，而且能够快速生成符合用户喜好的短视频内容。
混剪视频：此方案专注于利用商品原始素材，通过智能化的编辑和合成，为每个商品制作专属的解说视频。这种方式能够帮助消费者更全面地了解商品的细节和功能特性，增强用户体验。
营销视频：从站内外的达人带货视频中提取单品的营销视频。这种方式通过对达人带货视频进行分析和提取，制作出针对特定商品的营销内容，使消费者能够快速了解产品的亮点和优势，促进购买行为。

看点剪辑

直播作为一种实时变化的内容形式，与手淘其他内容有较大差异。在商家侧，其在不同场次间的挂品往往较为相似，因此没有重复讲解同一商品的意愿。在经营层面，直播内容的生命周期较短，商家主播普遍反馈缺乏有效的经营手段。在用户侧，由于主播讲解商品在快速变换，经常会发生用户点进某直播间，但对实时讲解商品不感兴趣，或者虽然对该商品感兴趣，但却需要较长时间才能获取到自己感兴趣的信息点的问题。看点剪辑是对直播的二次创作，可以在短时间内展现更生动有趣的商品使用和体验过程。但是对于商家来说，看点剪辑在剪辑手法和剪辑内容上有一定的门槛，且无法很好地满足快速智能化直转短的要求。

一场直播一般在1-2小时，解析得到的直播看点一般在5-10分钟，短视频时长是 30s~60s，而用户的注意力停留往往只有3-5s。在这样的限制下，如何使视频在短时间抓住用户注意力，尽可能体现商品核心卖点，是看点剪辑的重点。我们通过提升看点剪辑的质量，打通高效分发的链路，形成引流、创作、分发的正向循环。最终目标是提升直播转短视频的质量，提升用户体验。

▐ 效果预览

已关注

关注

重播

视频加载失败，请刷新页面再试
刷新

视频详情

已关注

关注

重播

视频加载失败，请刷新页面再试
刷新

视频详情

点击边框调出视频工具条

已关注

关注

重播

视频加载失败，请刷新页面再试
刷新

视频详情

点击边框调出视频工具条

▐ 技术方案

问题定义

我们需要解决的问题是将冗长的5-10分钟直播看点视频高效转化为更精简、更具吸引力的短视频，同时结合商品的丰富信息，例如主图、主图视频及其他相关可用素材，以进一步增强视频的营销效果。具体来说，我们的目标是输出一段仅30秒到60秒的高光视频，其中包含最能吸引观众注意力的片段，并以高信息密度展示商品的核心卖点。

总体方案

该方案的重点是智能地过滤并提取出直播内容中最具价值和信息含量的部分，不仅需要精准识别出商品的关键特性，还需确保视频表现具有足够的吸引力。

这个流程图展示了我们基于自研的多模态大模型的直播看点转短视频的过程，综合考虑了视频和文本内容，强调商品的核心卖点，最终自动生成高度吸引人的短视频。

输入：直播看点、视频帧、ASR
视频素材生成：结合文本和视觉信息，生成精简文案、标题、商品卖点及吸睛视频片段
视频元素：精简视频，花字，字幕，3秒吸睛视频
短视频合成：视频合成模块，将上述所有视频元素整合到30秒到60秒的短视频

核心模块介绍

用户关注的信息（高光）是主观性极强的，比如尺码推荐、颜色、权益信息、款式设计、材质面料、搭配推荐、功能、适着场景、上身效果、真人试穿、手持展示等等。此外，从业务维度分析，不同行业中用户关心的商品属性是不同的：

比如服饰行业，尺寸，颜色，材质，特点
比如食品行业，口味、口感、原材料、工艺、包装方式
比如美妆行业，功效、成分、适用群体

我们依赖多模态大模型的理解能力，并结合MoE (Mixture of Experts)架构处理不同行业商品关键信息的提取和整合。

同时，为了减少线上资源消耗并且提高服务速度，我们也采用了模拟蒸馏和偏好蒸馏技术。这些技术的核心在于将大模型中复杂的知识迁移到更小、更高效的模型中，保持模型性能的同时减少计算资源的消耗。通过这种知识迁移策略，我们在显著降低计算压力的同时，确保小模型在实用场景中仍具高效和精准的表现。这不仅提高了系统的响应速度，还优化了资源的利用，增强了整体服务的可扩展性和可靠性。

脚本定制化

为了更好地适应不同商品类目的特点，我们会根据直播商品的类别进行短视频脚本的定制化。

服饰类商品

在涉及服饰的直播中，主播通常会亲自试穿，并详细展示服饰的各个细节。因此，在短视频的开头部分，我们会精选主播展示服装的视频片段，用这种直观的视觉吸引用户的注意力。这种方式不仅能够立即引发用户的兴趣，还符合用户在线上购物时希望看到真实试穿效果的心理需求。

食品类商品

对于食品类商品，我们则采用不同的方法。短视频的开场会以主图视频的形式集中展示食物的外观和质地，并结合主播的真实声音讲述，以增强观众的感官体验。这种结合视觉和听觉的手法，可以有效地将潜在用户带入真实的消费场景，使他们更容易想象食物的实际口感和品质，从而激发购买欲望。

通过这样的脚本定制化，我们确保每类商品都能在短视频中最大化地展示其特性和吸引力，从而提高用户的观看体验和转化率。

▐ 业务应用

凭借着对直播看点内容的结构化理解，我们对冗长的直播看点进行精简，生成了包含商品核心卖点并且吸引人的短视频。该方案已支持淘宝线上圈定人群全类目的看点剪辑，日生产智能看点剪辑十万量级，一审通过率提升12pt。

混剪视频

淘宝本身拥有海量商品数据，商品信息包括丰富的视频、图片、文本描述，然而商家上传的视频大多为长视频，信息冗余，无法直接当做短视频投放。我们团队依托过去几年在内容理解、自然语言处理、多模态大模型以及语音合成等领域的技术积累，开发了一套端到端的商品混剪视频生产方案，该方案能够为淘系商品生成适应不同业务场景的、视听结合的有声短视频。

▐ 效果预览

视频加载失败，请刷新页面再试

视频加载失败，请刷新页面再试

视频加载失败，请刷新页面再试

▐ 技术方案

本方案的输入是一个商品ID，我们首先基于内容理解算法对该商品进行素材治理，筛选适合用于短视频的素材。其次使用大型语言模型根据商品的标题、属性等信息生成文案解说。接着利用多模态大模型以文本指导素材的编排，并通过TTS技术将文案转换为语音。最后，加上配乐信息，通过MAI合成最终需要的短视频。

素材治理

在短视频混剪过程中，素材治理是最基础且不可或缺的一环。为了尽可能为更多商品合成短视频，我们从商品图、买家秀等多个来源获取了素材数据。但这些数据的质量参差不齐，如果不做治理和择优，很容易因某一条低质素材影响最终合成短视频的整体质量，比如牛皮癣图、拼接图、美学分底的图或视频。

我们基于ODPS、MetaQ、OTS等强大的中间件能力搭建了一个强大的素材引擎。实际上，素材治理不仅是混剪视频业务独有的需求，除上图中的算法模块外，还支持图片OCR、商品行业分类等算法。基于该引擎，能够有效缓解商品重复请求带来的计算资源浪费的问题。

素材生成

并非所有商品都拥有充足的素材，尤其是对于中小商家而言，生产一条商品视频或图片的成本较高。为此，我们团队基于扩散模型自主研发了图像换衣、视频换衣和数字人等技术，能够有效缓解部分商品素材不足的问题。具体算法详见相关系列文章。

文案生成

文案解说是短视频的核心组成部分之一，直接影响视频的最终编排结构。我们收集了商品的标题、属性、评价等信息，利用大型语言模型生成解说文案。这些文案以买家的视角介绍商品的卖点和使用体验，旨在拉近与用户的距离，吸引用户点击购买。

你们有没有早上不想做饭的时候？我最近发现了金沙河的这款挂面，不仅原味的劲道爽滑，鸡蛋挂面特别香，还有龙须挂面超细超贴心，速食又好吃，关键是5斤装超耐用！每次煮碗面，暖心又温暖胃，强烈推荐给大家！

多模态匹配

视觉素材与文案解说相互独立，要想生成优质短视频，必须对两者进行匹配，我们使用多模态大模型完成这一任务。

我们的模型选择和训练策略受到BLIP-2的启发。BLIP-2提出了一种通用、有效的预训练策略，利用现有的冻结图像编码器和大语言模型来推动视觉-语言的预训练。BLIP-2通过轻量级的Q-Former来弥合不同模态之间的差距，并采用两阶段的训练策略。第一阶段通过冻结的视觉编码器启动视觉语义表征学习，第二阶段则利用冻结的语言模型进行视觉到语言的生成学习，具体的结构细节可参阅相关论文。

与BLIP-2不同的是，我们的视觉输入扩展到了视频（多帧图像）。基于VideoCoCa的经验，我们选择了最直接且有效的方法，将图文模型扩展至视频，即通过视觉编码器对多帧图像分别进行编码，并将编码结果拉平（flatten）后输入Q-Former。这种方法确保在处理任意长度图像输入时，得到的表征与输入Q-Former的查询数量一致。

在训练策略方面，我们采用了课程学习和自举（Bootstrapping）的方法，这一策略的主要优点在于能够在有限的训练资源下，最大化利用单模态大模型的能力，并将海量数据分批训练，从而降低资源需求和训练难度。我们的训练过程主要包括以下几个阶段：

阶段一：单模态编码器

在这一阶段，我们在包含亿级数据（如商品图文、逛逛图文等）及公开数据集（如Wukong等）的基础上，采用连续训练方法训练CLIP/FLIP模型。

阶段二：VideoBLIP

在此阶段，我们训练适配器以对齐文本和视觉两个模态的表征。数据来源上，我们采用了图文数据集（包括商品、逛逛及公开图文数据）与视频多模态数据集（短视频与直播片段）的混合训练。在预训练任务方面，根据BLIP2论文的设计，我们引入ITM、ITC、ITG三项任务作预训练。由于视觉输入为视频（多帧图像），我们将ITC和ITG任务分别转变为VTC（视频文本对比学习）与VTG（视频条件文本生成）。此外，实验发现VTM任务生成的多模态特征在下游分类任务中的表现不佳，我们因此设计了额外的预训练任务，以促进多模态特征的融合：

VTTG（视频与文本条件文本生成）：给定视频和部分文本，生成结合视觉与文本信息的文本，促进模型对多模态融合特征的学习。
VideoFLIP（掩码视频与文本对比学习）：通过对视觉和文本进行掩码，构造多模态正样本对（类似FLIP），利用对比学习任务增强多模态表征，促进模态之间的融合。

▐ 业务应用

混剪视频方案双十一期间在巨浪外投场景投放视频，消费指标相比视频大盘获得显著提升，覆盖巨浪的多个投放场景。

内容营销视频剪辑

该方案专门设计用来优化信息流场景下视频内容的展示效果。目前站内有大量达人带货营销视频，这些视频在吸引观众眼球和推广产品方面表现出色。但与此同时，它们也存在一些显著的问题，如会出现多个商品的介绍，且有较多的冗余信息，不满足信息流视频对应到单个商品、直入主题、内容精炼的要求。此外，还会存在画面、文本等信息不符合信息流展示标准的情况，因此，需要对其进行智能剪辑，以适应信息流场景。

▐ 效果预览

原视频	剪辑视频1	剪辑视频2	剪辑视频3
已关注关注重播视频加载失败，请刷新页面再试刷新视频详情	已关注关注重播视频加载失败，请刷新页面再试刷新视频详情	已关注关注重播视频加载失败，请刷新页面再试刷新视频详情	已关注关注重播视频加载失败，请刷新页面再试刷新视频详情

▐ 技术方案

问题定义

输入为内容营销视频，以及视频对应的挂品。输出为每个挂品从视频中所裁剪出的片段，要求出现的商品信息尽可能完整，且不出现其他品的介绍，同时排除各类敏感信息。同时，输出的视频需要保证开头和结尾自然，不应有突兀的开始或结束（对于句粒度和字粒度均如此），也不应有多余的画面。

由于原视频并非都是规则地将商品逐个展示并介绍，视频质量也参差不齐，因此需要更具一般性的剪辑方法。同时，由于单日生产量相对较少，对于视频剪辑的精细程度可以有更高的要求。

总体方案

视频剪辑的基本方案是利用视频的ASR得到视频信息与时间轴的对应，然后通过大语言模型的能力识别与商品相关的片段，从而裁剪出对应视频。然而，仅简单应用该方案，将导致出现由于多种原因而产生的bad case。为解决这一问题，我们设计了以下流程，并从流程中的各个模块入手来进行优化。

输入：内容营销视频，商品信息、主图
信息抽取：提取视频中的语音、图像、文字多模态信息
片段选取：两阶段筛选，粗筛后引入图像信息精筛
视频后期：去敏，片头片尾的精确选帧

多品定位、分割

输入视频通常在单个视频中包含多个商品，需要对其进行准确区分。然而，仅依靠ASR文本理解往往不足，因为缺乏视觉模态信息。这一局限性可能导致难以察觉主打商品的转换，特别是当达人直接进入商品描述而不明确强调基本商品信息时。此外，ASR在识别商品名称时的不准确性进一步增加了语言模型理解的复杂性。因此，引入视觉模态信息变得至关重要。

我们主要采用多模态模型（MLLM）进行图像理解。具体而言，首先从视频中提取帧并选择大致范围。随后利用MLLM将该范围内的帧与商品主图进行比对。一旦识别出与商品大致匹配的帧，我们进一步将该帧与其他帧进行比较（这一两阶段方案是由于视频中的SKU不一定与主图一致）。这一过程使我们能够定位所有展示该商品的帧。考虑到不同商品的出现帧可能存在交叉，因此还需要进行信息交互，以确定每个商品的非重叠视频片段。最后，我们利用LLM对这些片段进行扩展，以确保商品信息的完整性。

ASR的优化

在视频剪辑中，ASR 不仅用于获取视频语义，还用于内容的时间轴定位。ASR一般使用小型NLP模型进行断句，由于模型能力局限可能出现断句错误，进而影响剪辑视频的起止选帧，导致视频呈现不自然。因此，我们直接使用字粒度的 ASR，即获取每个字对应的时间轴，然后通过 LLM 进行断句，并结合 OCR 信息进行优化，以尽量修正 ASR 的识别偏差。

优化前	优化后
我用的是 kiss me 的温柔米棕，它的膏体很顺滑，细腻不会结块，涂上呢会让整个妆容看起来更加和谐。就算是我这种深发色染上也不会觉得涂混淡眼。真的。iphone 眼影先用浅色打底，叠加裸杏色晕染，在双眼皮褶皱处和下眼睑画一个肉嘟嘟的卧蚕拉出眼线，再贴一个全系假睫毛。	我用的是kiss me的温柔米棕。它的膏体很顺滑，细腻，不会结块。涂上呢，会让整个妆容看起来更加和谐。就算是我这种深发色染上，也不会觉得涂混，淡眼真的爱疯。眼影先用浅色打底。叠加裸杏色，晕染在双眼皮褶皱处和下眼睑。画一个肉嘟嘟的卧蚕，拉出眼线，再贴一个全系假睫毛。

精确的首尾选帧

出于对视频质量的要求，视频首尾既不能包含多余画面，也不能有显著截断，这需要精确确定视频的首尾帧。经过上小节优化的ASR时间轴可作为视频裁剪的基础，但仅依赖于ASR仍然会出现画面多余或截断的现象，主要问题在于两句话之间的无人声过渡部分的剪切应如何处理。对此，我们结合了视频画面信息，以进行更精细的裁剪。

我们使用轻量的解决方案，在画面跳变幅度超过阈值时，即判定语句切换。然而，仅检测全局画面可能忽略细节，尤其是字幕的切换难以识别，导致剪辑后的视频出现不必要的字幕变化，显得不自然。因此，对于包含字幕的视频，我们结合 OCR 和 ASR 信息以明确画面中的字幕区域，依据该区域的跳变进行裁剪，从而基本解决了上述问题，提升了剪辑效果。

去敏

敏感信息可能出现在视频的口播内容和画面中。对于口播内容，我们在得到初版选段后，利用 LLM 对敏感信息进行精细过滤，删除含有敏感信息的语句，并合并剩余段落（每段落均使用上述精确选帧方法进行裁剪，更有效地防止敏感信息的泄露）。对于画面中的敏感信息，如含价格信息的贴片，我们使用 OCR 识别后，对相应区域进行打码处理。

▐ 业务应用

内容营销视频剪辑方案已初步投入应用，预计后期每日生产视频500+条。

总结与展望

视频生成方案旨在充分利用淘宝现有的素材资源合成短视频，能够极大增加淘宝的短视频的丰富性。这一举措在未来的发展中具有非常广阔的业务前景，能够显著提高商品展示效果。当前，AIGC技术正在快速发展，它为视频生成方案引入了更多的创新和可能性。通过将AIGC算法融入到视频生成中，我们能够创造出新颖独特的视频内容，以此推动技术与业务的深度融合。这种技术创新不仅能提高内容的多样性和吸引力，还能为用户带来更加沉浸的体验。展望未来，我们计划进一步优化现有的视频生成方案。我们也将深入探索AIGC技术在视频生成中的应用边界，以便找到更多落地场景和使用案例，更积极地影响淘系的业务发展。我们始终致力于用技术为业务赋能，打造具备更高附加值的产品和服务，进而实现与合作伙伴和用户的多赢

团队介绍

我们是淘天内容AI团队，负责运用最新的生成式AI能力，挖掘淘宝核心场景的痛点问题，通过内容生成、智能交互等方式，改善用户购物体验、降低平台&商家经营门槛。在过去的几年团队持续以技术驱动产品和商业创新，在给业务创造价值的同时，也在Agent、可控图文、视频生成，多模态统一大模型等最前沿的技术领域也有着广泛布局和深度探索，在NIPS，CVPR，ICLR等顶会发表了数十篇论文，欢迎对团队技术工作感兴趣的同学进行交流或者加入我们。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

继续滑动看下一个

大淘宝技术

向上滑动看下一个