Realfill是一个用于个性化文本转图像填补模型(如stable diffusion inpainting)的方法,只需提供少量场景图像即可进行训练。
Watermark-Removal-Pytorch是基于深度图像先验技术的水印去除工具,使用CNN模型有效去除图像中的水印,支持简单调用API.
该仓库使用Tensorflow对象检测API将手语翻译为英语词汇,支持实时识别美式手语,如'你好'、'我爱你'等。它为用户提供了图像采集和标注的工具,方便快速训练模型。
该仓库提供了一种零-shot文本引导的视频到视频转换框架,旨在解决视频帧之间的时间一致性问题。
Jsonformer是一种高效生成结构化JSON的工具,利用语言模型生成内容令牌,并填充固定令牌,确保生成的JSON符合语法和结构。
IP-Adapter是一个轻量级的适配器,旨在为预训练的文本到图像扩散模型提供图像提示功能,实现多模态图像生成。
FaceChain是一个深度学习工具链,用于生成保留身份的人像,支持多种风格,一张照片即可在10秒内生成个性化肖像。
Bark-Voice-Cloning是一个语音克隆工具,支持中文和英文音频的转换,用户可通过简单的界面实现音频合成与克隆。
llama2-webui是一个基于gradio的网页用户界面,允许用户在本地GPU或CPU上运行各种Llama 2模型,适用于生成代理和应用。
MobileSAM是一个轻量级的图像分割项目,旨在让手机应用程序和其他设备更快地实现图像分割功能。
该仓库提供高质量的零-shot图像分割模型HQ-SAM,旨在提升SAM的性能,支持视频分割等应用。
这个仓库提供开源的强大图像识别模型,主要用于高精度图像标记和分类,支持多种常见和开放类别的识别。
OpenGPT是一个框架,用于创建基于指令的医学数据集,并训练会话领域专家的大型语言模型(LLMs)。
LAVIS是一个集成语言与视觉智能的库,支持多种模态的整合,适用于图像、视频、音频等任务。
LangChain是一个构建基于大型语言模型(LLM)的应用程序的框架,旨在简化AI应用的开发和集成。


