TTT-Video是一个基于PyTorch的库,用于生成一分钟视频,利用测试时训练方法进行样式转换和上下文扩展。
UI-R1是一个基于强化学习的框架,旨在提升多模态大语言模型在图形用户界面动作预测任务中的推理能力,显著提高预测准确率。
FlashRAG是一个Python工具包,专注于高效的检索增强生成(RAG)研究,提供多个基准数据集和先进算法,便于用户快速复现研究成果。
HiDream-I1是一个开源的图像生成模型,具有170亿参数,能够在数秒内生成高质量图像,适用于各种图像处理场景。
KeyForge3D 是一款将钥匙照片转为可打印 STL 文件的应用,适合锁匠及爱好者使用,通过图像处理分析钥匙的形状,生成精确的 3D 模型。
这是一个多模态OCR系统,旨在从复杂的教育材料中提取结构化数据,支持各类文本和图表,优化机器学习训练。
WR.DO是一站式域名服务平台,提供短链生成、无限域名邮箱、文件存储和子域名管理等功能,适合自部署使用。
DeepGit是一个基于Langgraph的智能工作流程,帮助用户在GitHub上深度搜索和分析仓库,发现最相关的工具。
LLaSA_training是一个基于LLaMA的语音合成项目,旨在提升训练和推理性能,支持多语言和多说话人模型的微调。
MCP-Server-Playwright是一个基于Playwright的模型上下文协议服务器,可用于浏览器自动化,支持网页交互、截图和JavaScript执行。