Segment Anything 是一个用于图像和视频分割的基础模型,提供代码、训练模型下载链接及示例,便于用户快速上手。
该仓库实现了“按顺序着装:用于姿态转移、虚拟试穿和服装编辑的人物图像生成”的研究,主要用于虚拟试穿和服装修改的研究和实践。
PIDM是一个通过去噪扩散模型进行人像合成的项目,提供了基于Google Colab的演示,便于用户生成高质量的人像图像。
该仓库提供CVPR 2021论文《运动表示用于关节动画》的源代码,旨在实现基于驱动视频的动画生成。
这个仓库提供了《第一阶运动模型图像动画》的源代码,主要用于将视频中的运动转移到静态图像上,适用于各种数据集的图像动画生成。
N46Whisper是一个Google Colab笔记本工具,用于快速生成日本字幕文件,旨在提高Nogizaka46等团体翻译者的生产力。
pyannote.audio是一个基于Python的开源工具包,主要用于说话人分离,提供语音活动检测、说话人变化检测及重叠语音检测等功能。
BLIP是一个基于PyTorch的库,用于统一的视觉-语言理解和生成,支持图像标注、视觉问答等任务,现已整合进LAVIS库。
“让爷康康”是一款安卓手机应用,通过AI技术实时监测用户坐姿并提供语音提示,帮助改善不良坐姿习惯。
JoJoGAN是一个基于PyTorch的单次人脸风格化实现,旨在通过参照风格图像生成高质量的风格化人脸图像。
Disco Diffusion是一个结合多种笔记本和模型的AI艺术和动画生成工具,支持用户创造丰富的视觉作品。
pytorch-kt是一个便捷的知识追踪模型库,旨在帮助用户评估和实现知识追踪相关算法。
CEFR-English-Level-Predictor是一个自然语言处理系统,用于预测文本的阅读难度级别(CEFR)。
Peacasso是一个用户界面工具,旨在帮助用户生成艺术作品并实验多模态AI模型(稳定扩散)。
Tortoise是一个多语音文本转语音(TTS)系统,强调语音的高质量和自然性,适合进行语音合成和生成。


