LLM-Aided OCR项目通过应用大语言模型技术,提升扫描PDF的光学字符识别(OCR)输出质量,生成准确易读的文档。
qqwry是一个自动更新的纯真IP数据库,提供最新的IP地址信息,便于开发者进行IP相关查询和应用。
Devon 是一个开源的配对编程工具,旨在帮助开发者提高协作效率,支持多种编程任务。
LLM4Decompile是一个利用大语言模型反编译二进制代码的工具,主要用于逆向工程和代码分析。
Fish Speech是一个开源的多语言文本转语音(TTS)工具,支持语音克隆,提供最新的技术水平,方便开发者集成和使用。
ComfyUI-segment-anything-2是一个使用segment-anything-2的ComfyUI节点,功能正在开发中,提供模型下载及节点测试,助力用户进行图像分割。
AudioNotes是一个音视频转结构化Markdown笔记的系统,利用大模型快速提取和整理内容,便于阅读与记忆。
FLUX是一个开源模型推理库,支持图像生成和编辑,提供简单的本地安装和TensorRT支持。
MinerU是一款高质量的开源工具,将PDF文件转换为Markdown和JSON格式,便于数据提取和处理。
CatVTON是一个高效的虚拟试穿扩散模型,具备轻量网络和简化推断,适用于图像合成与虚拟试衣应用。