cover_image

利用AIGC稳定重绘视频风格实践

映客技术
2024年05月15日 08:14

一、背景

在当前数字媒体时代,视觉内容的创新与个性化已变得尤为重要。特别是在电影、广告及游戏行业,定制化的视觉风格不仅能够增强观众的沉浸感,还能有效地传达独特的艺术理念。随着人工智能技术的发展,尤其是自动生成图像内容(AIGC)技术的进步,如神经风格迁移、生成对抗网络(GANs)、以及最近的稳定扩散(Stable Diffusion简称SD)模型,都为视频内容的风格化提供了新的可能性。这些技术能够自动地将艺术家的风格应用到视频序列中,创造出令人印象深刻的视觉效果。

二、难点

1.风格的时间一致性

在视频序列中维持一致的风格保持画面稳定是一大挑战,目前视频风格迁移后,视频画面会出现闪烁等问题,导致视频可观赏性很差。视频闪烁是重绘目前遇到的最大问题。

2.风格迁移的质量

如何确保风格迁移后视频的清晰度,美观度是一大挑战。

3.技术的适应性和泛化性

确保所采用的技术能够广泛适用于不同风格和各种类型的视频内容。

4.计算资源的需求

高质量的视频风格化处理通常需要大量的计算资源以及时间,这对一个较长的视频风格化处理来说,时间和计算资源成本大大增加。

三、方案设计

从神经风格迁移的初步实验到 GANs 的发展,以及最近的稳定扩散模型Stable DiffusionAIGC领域已经取得了显著的进步。稳定扩散模型特别适合于处理高分辨率的图像,它通过操控隐空间来生成具有特定风格的图像,这一技术已被证明在保持图像质量的同时提供高效的处理速度,非常适合应用于图片风格化,但是如果直接应用在视频帧上,不能保证视频帧与帧之间的一致性,会出现视频闪烁等问题。所以还需要加一些控制来保证画面稳定。

为了实现稳定且高效的视频风格迁移,本方案提出以下几个关键节点:

图片

整体流程示意图

1.预处理与帧分析

对输入视频进行逐帧分析,识别关键帧和运动特征,为风格迁移做准备。在进行帧采样时,可采用简单暴力的方式例如下采样或者用简单的关键帧算法来筛选关键帧。这一步骤对最终结果的稳定性也有一定的影响。

2.风格迁移模型选择

在这一步中,我们需要对上一步骤中筛选出的视频每一帧都进行风格迁移,我们采用图生图的方式,来对这些帧进行风格重绘,最新的AIGC图像生成Stable diffusion方案,无疑是方案首选。目前该方案下,开源的风格模型众多,社区里的各种模型也在持续增加迭代,效果也越来越好,我们也可以训练自己想要的任何风格,加上众多的扩展算法的适配,例如controlnet等等,使其对图像进行风格迁移时无疑是首选。

图片

Stable Diffusion示意图

选定好要迁移的风格模型后,并利用controlnet里面的算法,如cannynormalbae等等进行控制,使得图片上的风格迁移更加尊重原图,同时也能一定程度上缓解帧与帧之间的不连续性。同时需要调整相应的参数,来进行大量的不同图片的风格测试,来固化相应的风格参数,另外也可以将一些参数暴露给用户,来让用户调整,比如风格化的强度等等。

将通过上述方法重绘后的每一帧在制作为视频后,就是风格迁移后的视频,到这一步走为止是之前大家通用的一个简单方案,比如vid2vid插件所用的方案就是上述我们提到的。但是这样制作出来的视频会出现闪烁抖动等问题,也就是时间序列上不连贯,所以还需要进行时间一致性优化。

3.时间一致性优化

为了解决Stable Diffusion重绘后出现的各种闪烁抖动问题,我们要在重绘后或者重绘时利用特定的算法来确保时间序列上的连贯性,这里我们采用AnimateDiff方案。

简单介绍一下AnimateDiff。常见的Text to Video 方法是在原始的文生图模型中加入时间建模,并在视频数据集上对模型进行调整。但普通用户通常无法负担敏感的超参数调整、大量个性化视频数据集收集和密集的计算资源,让个性化Text to Video这项工作富有挑战。

AnimateDiff 提出了一套新的方法,其核心原理为将一个新初始化的运动建模模块附加到冻结的基于文本到图像的模型上,并在此后的视频剪辑中对其进行训练,以提炼出合理的运动先验知识。一旦训练完成,通过简单地注入这个运动建模模块,所有从相同基础模型派生的个性化版本都可以立即成为以文本驱动的模型,可以生成多样化和个性化的动画图像。

图片

Animatediff示意图:把时序模块拆解出来,提供一个即插即用的模型

并且通过实验证明,运动先验可以推广到 3D 动画片和 2D 动漫等领域,即AnimateDiff 可以为个性化动画提供一个简单而有效的基线,用户只需承担个性化图像模型的成本,就能快速获得自然的个性化动画。将该算法应用到视频风格迁移模型中,会很好的解决帧重绘后的闪烁抖动等问题。

4.后处理与优化

上一步骤中风格化后的帧重组为的视频基本上解决了闪烁抖动的问题,但有时候仍然有瑕疵,比如分辨率,帧率是否足够等,所以我们可以采用插帧等算法来提高帧率,让画面更加稳定,观感更舒适,同时也可以采用高清放大算法,来提升分辨率,制作更清晰的高分辨率视频。这些优化是否要做,要取决于时间和效果的一个平衡,以及对视频质量的要求标准 。

5.资源管理

为了降低计算资源以及时间成本,可采用最新的LCM等算法来加速生产, LCM采用了图像潜在空间中的一致性模型,并选择了强大的稳定扩散作为底层扩散模型,使用简单的一阶引导蒸馏方法,引入SKIPPING-STEP技术来加速LCM的收敛,减少迭代步数加速图片的生成。已经广泛应用的Stable Diffusion 等潜在扩散模型由于迭代采样过程计算量大,生成速度非常缓慢,使用LCM 能将主流文生图模型的效率提高数倍。这样说可能有点难懂,但想象一下你在搭积木,那么LCM就像是一种全新的积木设计,它使用一致性模型就像是给你每块积木都标上了最佳的拼接方式,而强大的稳定扩散技术就好比每块积木都是坚固的建筑砖,所以你能在更短时间内完成一座稳固的积木城堡。

图片

需要注意的是,该算法会对画面质量可能有一定的影响,需要进行折中调试,以获得最优的效果。

四、效果展示

普通动漫风格:

图片

折纸风格:

图片

像素风格:

图片

五、总结

通过上述方案的实施,可以有效地将先进的AIGC技术应用于视频风格化,不仅提高了视频处理的效率,也大幅度提升了视觉效果的艺术表现力。此方案的成功实践有望推动视频制作和相关领域的技术革新,为创作者提供强大的工具来表达其艺术愿景。随着技术的不断进步和优化,期待未来在更多实时应用中看到其广泛的应用。


继续滑动看下一个
映客技术
向上滑动看下一个