Stable-Dreamfusion 是一个基于 PyTorch 的文本到 3D 模型实现,结合了 Stable Diffusion,用于生成 3D 内容和导出网格。
StableSR是一个基于扩散先验的图像超分辨率项目,旨在提高真实世界图像的清晰度和细节,还原高质量图像。
sd-webui-stablesr 是一个用于Stable Diffusion WebUI的超高质量图像放大工具,采用竞争性超分辨率算法,提升图像细节和质量。
DragGAN是一个开源项目,用于实现基于交互点的生成图像操作,支持用户通过简单拖拽来修改图片,适用于各种类型的操作与演示。
InternGPT是一个开源演示平台,支持DragGAN、ChatGPT等多种AI模型,使用户能以拖拽和绘图方式与AI互动,提升交流效率与准确性。
StyleTalk是一个生成可控说话风格的实时头部视频的工具,支持用户通过指定样式视频来生成相应的虚拟人说话视频。
GeneFace是一个高保真3D人脸合成工具,通过音频生成逼真、同步的说话人脸,广泛应用于动画和虚拟角色展示。
DiffSinger是一个基于浅层扩散机制的歌声合成工具,支持音频生成和文本转语音功能,适用于研究和应用开发。
LiveSpeechPortraits 是一个实时生成个性化逼真说话头像动画的系统,仅通过音频信号驱动,具备高效的表现能力。
该仓库提供了一个可控姿态的语音驱动人脸生成系统,允许用户通过音频控制人脸的头部姿势,旨在实现自然的视频合成效果。


