Cua是为计算机使用AI代理设计的Docker,允许AI代理在虚拟容器中控制完整操作系统并部署,支持本地和云端使用。
OmniGen是一个统一的图像生成模型,支持从文本生成高质量的图像,适用于研究和开发图像生成技术。
ShabbyPages是一个文档图像数据集,包含清晰和失真版本,适用于训练去噪和二值化模型,改进文档处理效果。
DocumentDenoise是一个用于OCR研究项目的文档去噪工具,采用深度学习方法,如自编码器和CycleGAN,提升图像质量。
MiniCPM是一个端侧大模型客户端,专为Intel处理器优化,提供5倍以上的生成加速,提升效率并支持大规模文本生成。
TangoFlux是一个快速且忠实的文本转语音生成工具,利用流匹配技术实现高质量音频生成。
雅鸭IELTSDuck是一款专为雅思作文设计的智能助手,提供评分、反馈和自动生成作文等功能,旨在提升用户的写作能力。
MobileAgent是一个强大的GUI代理工具,提供多模态跨平台GUI感知和操作功能,适用于多种应用场景。
Sweep是一个为JetBrains开发的AI编程助手,旨在提升编程效率和代码质量。
该仓库展示了多种增强检索生成(RAG)系统的先进技术,旨在提升系统的准确性和上下文丰富性。
GenAI_Agents仓库提供多种生成式AI代理技术的教程和实现,涵盖从基础到高级的开发,全方位指导构建智能互动AI系统。
Ollama-OCR是一个强大的光学字符识别工具,利用先进的视觉语言模型从图像和PDF中提取文本,支持多种输出格式与批量处理。
JoyCaption是一个开源免费的图像描述视觉语言模型,旨在为社区提供训练扩散模型的工具,支持多种图像风格和内容。
该仓库提供使用Gemini API的示例和指南,包含快速入门和实用案例,帮助用户高效学习和实践。
E2M是一个Python库,将多种文件格式(如doc, pdf, ppt等)转换为Markdown,便于数据处理和利用。


