MarkItDown是一个轻量级的Python工具,用于将多种文件和办公文档转换为Markdown格式,便于文本分析和处理。
StableAnimator是一个端到端的视频扩散框架,通过参考图像和一系列姿势合成高质量的视频,确保身份保持,适用于动画生成。
MMAudio是一个高质量视频到音频合成工具,利用多模态联合训练生成同步音频,支持视频和文本输入。
这个仓库提供Krita的生成式AI插件,简化图像创作与编辑流程,支持文本提示生成、局部修整等功能,适合艺术创作。
Agentless是一个无代理的方法,自动解决软件开发问题,包括故障定位、修复和补丁验证。
keras-ocr是一个封装灵活的文本检测和识别模型,结合CRAFT文本检测器和Keras CRNN,提供高层API以简化文本识别管道的训练和使用。
PDF-Extract-Kit是一个强大的开源工具包,旨在高效提取复杂PDF文档中的高质量内容,支持多种文档解析任务。
StructEqTable-Deploy是一个高效的开源工具包,旨在将表格图像转换为LaTeX/HTML/Markdown,支持科学出版、财务报表等多种场景。
UniMERNet是一个通用网络,用于将数学公式图像转换为LaTeX,适用于各种真实场景。
此仓库提供了一种基于检测的手写文本识别模型,支持在真实数据上进行训练和优化,适用于文本检测和识别任务。