类库 - công cụ trực tuyến

datalab-to/chandra

Chandra是一个高精度的OCR模型，支持将图片和PDF转换为结构化的HTML、Markdown或JSON，同时保留布局信息，具备良好的表单和手写识别能力。

Python

1,522

141

Apache License 2.0

11小时前

Bogdanovich77/DeekSeek-OCR---Dockerized-API

DeekSeek-OCR是一个强大的OCR解决方案，能将PDF文档转换为Markdown格式，支持批处理和REST API调用，便于文档处理。

Python

954

102

3天前

LoredCast/filewizard

File Wizard是一个自托管的Web工具，用于文件格式转换、OCR、音频转录及文本转语音，支持多种文件处理工具，界面简洁易用。

Python

553

28

MIT License

3天前

ciur/papermerge

Papermerge是一个开源文档管理系统，专为扫描文档设计，支持OCR文本提取和全文搜索。适用于长期存储数字档案。

Python

2,790

294

Apache License 2.0

1个月前

xiao-baia/ComboOCR

ComboOCR是一个基于深度学习的高精度文本识别系统，集成了多种先进模型，支持图像文本识别和图像增强，适用于文档处理。

Python

5

2

Apache License 2.0

1个月前

vkgo/OCRAutoScore

OCRAutoScore是一个基于Python的OCR自动化阅卷项目，通过图像识别技术自动评估试卷，支持多种语言并提供模块化开发接口。

Python

345

99

GNU Affero General Public License v3.0

1个月前

tjmlabs/ColiVara

ColiVara是一个文档存储和检索服务，基于视觉嵌入技术实现先进的文本和视觉文档检索，无需OCR或文本提取。

Python

1,259

97

Other

1个月前

NanoNets/docstrange

DocStrange用于智能提取和转换各种文档（如PDF、Word、图片等）中的数据，并支持多种格式（Markdown、JSON等），方便用户处理和利用文档信息。

Python

521

37

MIT License

1个月前

CatchTheTornado/text-extract-api

text-extract-api 是一个文档提取与解析API，支持将PDF、Word及PPTX等文件转换为高精度的Markdown或JSON格式，具备去除个人识别信息功能。

Python

2,863

241

MIT License

1个月前

rednote-hilab/dots.ocr

dots.ocr是一个强大的多语言文档解析工具，结合了布局检测与内容识别，适用于各类文档处理。

Python

4,080

409

MIT License

1个月前

类库

文库