类库 - 在线工具

YaoFANGUK/video-subtitle-extractor

video-subtitle-extractor 是一款视频硬字幕提取工具，能将视频中的硬字幕识别并生成为srt文件，支持多语言和批量提取，采用本地OCR，无需API，适用于各种视频。

Python

7,759

811

Apache License 2.0

2个月前

chineseocr/chineseocr

该项目结合yolo3与ocr实现中文自然场景下的文字检测与识别，支持多种模型转换与训练，适用于身份证和火车票等结构化数据的识别。

Python

6,094

1,730

MIT License

2个月前

jlsutherland/doc2text

doc2text是一个Python模块，旨在从质量较差的PDF文档中提取高质量文本，解决扫描错误，帮助科研人员获取更多有用数据。

Python

1,274

103

MIT License

4个月前

jenh/epub-ocr-and-translate

这是一个用于自动OCR处理PDF文档、翻译输出并生成epub/PDF文件的工具集，旨在支持多语言创建。

Python

43

4

MIT License

6个月前

PaddlePaddle/PaddleOCR

PaddleOCR是一个基于PaddlePaddle的多语言OCR和文档解析工具，支持80多种语言的识别，提供数据标注和合成工具，适用于服务器、移动设备及嵌入式设备的训练和部署。

Python

52,955

8,539

Apache License 2.0

2个月前

ocrmypdf/OCRmyPDF

OCRmyPDF为扫描的PDF文件添加OCR文本层，允许搜索和复制粘贴，提升文档的可用性。

Python

30,920

2,139

Mozilla Public License 2.0

2个月前

JaidedAI/EasyOCR

EasyOCR是一个即用型OCR库，支持80多种语言和多种书写脚本，提供便捷的文字识别功能。

Python

27,709

3,450

Apache License 2.0

2个月前

breezedeus/CnOCR

CnOCR是基于PyTorch的中文/英文OCR工具包，提供20多个预训练模型，便于用户直接安装后使用。

Python

3,631

525

Apache License 2.0

2个月前

Kr1s77/Python-crawler-tutorial-starts-from-zero

本仓库是一个Python爬虫教程，内容涵盖JS逆向、Selenium、Tesseract OCR识别、MongoDB及Scrapy框架，适合零基础学习者。

Python

4,515

765

2个月前

fighting41love/funNLP

funNLP是一个中文自然语言处理资源库，提供多种NLP工具和数据集，涵盖敏感词检测、语言识别、信息抽取等功能，适合研究和应用。

Python

75,622

14,968

2个月前

类库

文库