此仓库提供了一种基于检测的手写文本识别模型,支持在真实数据上进行训练和优化,适用于文本检测和识别任务。
CosyVoice是一个多语言大规模语音生成模型,提供高质量的语音合成、训练和部署功能,支持多种语言和方言,具有低延迟和高准确性。
WhyHow知识图谱工作室是一个易于创建和管理RAG原生知识图谱的平台,支持灵活的数据摄取和模块化图构建,适用于实验与大规模应用。
VideoLingo是一个全能视频翻译、本地化和配音工具,旨在生成Netflix级别的字幕,支持一键自动化处理,打破语言障碍。
AnchorCrafter是一个基于扩散模型的系统,用于生成以人类与产品互动为基础的高质量推广视频,提升电商和广告效果。
这是一个开源的AIOps和告警管理平台,提供告警去重、丰富、过滤和关联功能,支持双向集成和自定义工作流程,旨在提升告警管理效率。
NarratoAI 是一款基于AI的大模型的影视解说与自动剪辑工具,提供文案撰写、配音、字幕生成等一站式解决方案,助力高效内容创作。
Wav2Lip-HD是一个高保真唇同步视频生成工具,结合Wav2Lip与Real-ESRGAN算法,实现在视频中精确的唇部同步及增强画质。
Auralis是一个快速的文本转语音引擎,支持声纹克隆,能在短时间内将长文本转换为自然语音,非常适合实时应用。
Co-op Translator 可自动将文档翻译成多种语言,助力全球受众访问,基于 Azure AI 服务构建。


