类库 › MinerU-Diffusion
opendatalab

opendatalab/MinerU-Diffusion

MinerU-Diffusion是一个基于扩散模型的文档OCR框架,它将传统的自回归解码替换为块级并行扩散解码,实现了快速、鲁棒且具有布局感知能力的文档文字识别。

opendatalab/MinerU-Diffusion

技术栈

根目录 python

查看全部依赖 (17)

依赖

NumPy accelerate einops flash-attn liger-kernel pillow qwen-vl-utils safetensors sentencepiece termcolor torch torchaudio torchvision tqdm transformers triton xxhash

截图

assets/banner.png
assets/decode.png
assets/train.png
assets/performance_tradeoff.jpeg

评论

Home - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-27 06:41
浙ICP备14020137号-1 $Map of visitor$