Marigold是一个计算机视觉项目,旨在利用扩散模型生成单目深度估计和图像特征分析,支持高分辨率深度图提取。
Cloth2Tex是一个定制化的布料纹理生成管道,旨在为3D虚拟试穿提供支持,提升用户体验。
srt-gpt-translator是一个基于OpenAI API的字幕翻译工具,支持多语言srt文件翻译及双语字幕输出。
Marker是一个快速准确地将PDF及多种文档格式转换为Markdown和JSON的工具,支持提取图像及格式化复杂内容。
LiteLLM是一个Python SDK和代理服务器,支持调用100多个以OpenAI格式提供的LLM API,如Azure、OpenAI和HuggingFace等,方便用户接入各类语言模型。
clone-voice是一个基于web界面的声音克隆工具,用户可以使用特定音色合成语音或将不同声音转换为特定音色,支持多种语言。
StyleTTS 2是一个先进的文本转语音模型,通过风格扩散和对抗训练实现人类级别的语音合成,支持无参考语音的风格建模。
twitter-video-dl是一个用Python编写的工具,允许用户直接下载Twitter视频为mp4格式,使用简单,无需API密钥或额外工具。
screenshot-to-code是一个将截图、模型和Figma设计转换为干净HTML、Tailwind、React和Vue代码的工具,支持多种AI模型生成代码。
pyvideotrans是一个视频翻译和配音工具,支持语音识别、文字翻译和字幕生成,能将视频从一种语言翻译为另一种。还提供多种音频处理功能。