类库 - Online Tools

NanoNets/docstrange

DocStrange用于智能提取和转换各种文档（如PDF、Word、图片等）中的数据，并支持多种格式（Markdown、JSON等），方便用户处理和利用文档信息。

Python

521

37

MIT License

1个月前

T8RIN/ImageToolbox

ImageToolbox是一个强大的图像处理应用，提供裁剪、绘图、滤镜、OCR等多种高级功能，帮助用户高效进行图像操作。

Kotlin

9,665

430

Apache License 2.0

1个月前

CatchTheTornado/text-extract-api

text-extract-api 是一个文档提取与解析API，支持将PDF、Word及PPTX等文件转换为高精度的Markdown或JSON格式，具备去除个人识别信息功能。

Python

2,863

241

MIT License

1个月前

lumina-ai-inc/chunkr

Chunkr是一个开源文档智能API，提供文档布局分析、OCR及语义分块功能，将PDF、PPT、Word文档和图像转换为适用于RAG/LLM的数据块。

Rust

2,835

178

GNU Affero General Public License v3.0

1个月前

rednote-hilab/dots.ocr

dots.ocr是一个强大的多语言文档解析工具，结合了布局检测与内容识别，适用于各类文档处理。

Python

4,080

409

MIT License

1个月前

chatdoc-com/OCRFlux

OCRFlux是一个轻量级且强大的多模态工具包，专注于PDF到Markdown的转换，特别擅长复杂布局处理、表格解析及跨页内容合并。

Python

2,237

130

Apache License 2.0

1个月前

NanoNets/docext

docext 是一个本地文档信息提取和基准测试工具包，支持将PDF和图像转换为Markdown，并进行文档信息的智能提取。

Python

1,690

128

Apache License 2.0

1个月前

ttop32/MouseTooltipTranslator

MouseTooltipTranslator是一个Chrome扩展，支持多语言翻译，用户悬停或选择文本即可翻译，适用于PDF、网页等场景，提升阅读体验。

JavaScript

973

142

MIT License

2个月前

kyryl-opens-ml/no-ocr

No OCR是一个简化的AI文档处理工具，通过上传文件快速搜索和提问，无需复杂的文本提取，支持PDF文档集合管理和向量搜索。

TypeScript

164

21

Apache License 2.0

2个月前

ses4255/Versatile-OCR-Program

这是一个多模态OCR系统，旨在从复杂的教育材料中提取结构化数据，支持各类文本和图表，优化机器学习训练。

Python

664

47

Other

2个月前

类库

文库