Tất cả
                                    › Ngôn ngữ: Python ×
                                                    › Từ khóa: "ocr"
                            
        
        
                
        
        
                    
                                    OCRFlux是一个轻量级且强大的多模态工具包,专注于PDF到Markdown的转换,特别擅长复杂布局处理、表格解析及跨页内容合并。                                
                                
                                
                            
                                    docext 是一个本地文档信息提取和基准测试工具包,支持将PDF和图像转换为Markdown,并进行文档信息的智能提取。                                
                                
                                
                            
                                    这是一个多模态OCR系统,旨在从复杂的教育材料中提取结构化数据,支持各类文本和图表,优化机器学习训练。                                
                                
                                
                            
                                    LayoutReader是一个基于LayoutLMv3的高效模型,用于排序OCR框的阅读顺序,优化了文档解析和多语言处理。                                
                                
                                
                            
                                    Open-Sora旨在以高效方式制作高质量视频,提供开放源代码工具,简化视频生成复杂性,促进创意与创新。                                
                                
                                
                            
                                    VisionSub 是一款高效的视频硬字幕提取工具,支持从视频中提取字幕并导出为多种格式,如 SRT 和 JSON,具有实时预览和强大OCR功能。                                
                                
                                
                            
                                    DdddOcr是一个开源的Python库,用于离线识别通用验证码,旨在提供简单易用的OCR解决方案,支持自定义模型和HTTP API服务。                                
                                
                                
                            
                                    olmocr是一个工具包,用于将PDF和其他基于图像的文档格式转换为干净、可读的纯文本格式,支持复杂排版与数学公式。                                
                                
                                
                            
                                    keras-ocr是一个封装灵活的文本检测和识别模型,结合CRAFT文本检测器和Keras CRNN,提供高层API以简化文本识别管道的训练和使用。                                
                                
                                
                            
                                    TexTeller 是一个图像转LaTeX公式的模型,具备高准确率和强泛化能力,适用于多种使用场景。                                
                                
                                
                            

