类库
› MinerU-Diffusion
opendatalab/MinerU-Diffusion
MinerU-Diffusion是一个基于扩散模型的文档OCR框架,它将传统的自回归解码替换为块级并行扩散解码,实现了快速、鲁棒且具有布局感知能力的文档文字识别。
标签
技术栈
根目录 python
查看全部依赖 (17)
依赖
NumPy
accelerate
einops
flash-attn
liger-kernel
pillow
qwen-vl-utils
safetensors
sentencepiece
termcolor
torch
torchaudio
torchvision
tqdm
transformers
triton
xxhash
截图