这个仓库提供11节课程,旨在帮助初学者掌握构建AI代理的基础知识与技能。
该仓库实现了DeepFont算法,用于通过深度学习识别图片中的字体,支持数据生成、训练和评估,同时提供Docker支持,以便用户轻松部署和使用。
Font_Recognition-DeepFont 是基于深度学习的字体识别工具,利用 Keras 实现从图像中识别字体,灵感来源于 Adobe 的 DeepFont 技术。
EDGS是一个基于PyTorch的3D场景重建方法,通过高效的稀疏初始化和快速收敛,实现高质量渲染,极大缩短训练时间。
Qwen2.5-VL是由阿里云Qwen团队开发的一款多模态大型语言模型,支持强大的文档解析和对象定位功能,旨在提升多场景和多语言文本处理能力。
该仓库实现了一个使用YOLOv8n模型的二维码检测系统,能够识别图像中的二维码,并提取其内容,支持简单的前端展示。
Cua是为计算机使用AI代理设计的Docker,允许AI代理在虚拟容器中控制完整操作系统并部署,支持本地和云端使用。
OmniGen是一个统一的图像生成模型,支持从文本生成高质量的图像,适用于研究和开发图像生成技术。
ShabbyPages是一个文档图像数据集,包含清晰和失真版本,适用于训练去噪和二值化模型,改进文档处理效果。
DocumentDenoise是一个用于OCR研究项目的文档去噪工具,采用深度学习方法,如自编码器和CycleGAN,提升图像质量。
MiniCPM是一个端侧大模型客户端,专为Intel处理器优化,提供5倍以上的生成加速,提升效率并支持大规模文本生成。
TangoFlux是一个快速且忠实的文本转语音生成工具,利用流匹配技术实现高质量音频生成。
雅鸭IELTSDuck是一款专为雅思作文设计的智能助手,提供评分、反馈和自动生成作文等功能,旨在提升用户的写作能力。
MobileAgent是一个强大的GUI代理工具,提供多模态跨平台GUI感知和操作功能,适用于多种应用场景。
Sweep是一个为JetBrains开发的AI编程助手,旨在提升编程效率和代码质量。


