JoyGen:音频生成逼真的 3D 说话人脸视频

摘要

本文介绍了一种名为JoyGen的音频驱动嘴型视频编辑技术,通过两阶段框架实现音频驱动的唇部动作生成和视觉外观合成。利用3D重建模型和音频特征,结合面部深度图,提升音频嘴型同步和视觉质量。实验在HDTF和自建中文数据集上进行,结果显示JoyGen在同步性和视觉质量上表现优异。

欢迎在评论区写下你对这篇文章的看法。

评论

inicio - Wiki
Copyright © 2011-2025 iteam. Current version is 2.144.0. UTC+08:00, 2025-07-02 00:29
浙ICP备14020137号-1 $mapa de visitantes$