Soundwave是一个高效的语音转文本模型,旨在实现语音与文本的深度对齐,适用于交互式任务,表现出色。
Python
219
21
Apache License 2.0
1周前
Skywork-R1V是由Skywork AI开发的先进多模态AI模型系列,专注于视觉-语言推理,提供模型权重和推理代码。
Python
2,944
267
MIT License
5天前
MagicQuill是一个智能互动图像编辑系统,提供用户友好的界面和AI辅助编辑功能,支持精准的本地图像编辑。
Python
3,539
371
Other
6天前
MarkPDFDown是一款高质量的PDF转Markdown工具,基于大型语言模型视觉识别,能够精准提取文本,保留格式,支持复杂文档结构。
Python
1,558
112
Apache License 2.0
6天前
TrajectoryCrafter 是一个利用扩散模型从单目视频生成高保真新视角的工具,支持精确的相机轨迹控制。
Python
739
37
Other
6天前
Token Explorer是一个工具,允许用户交互式地探索大型语言模型(LLM)的标记生成过程,提供类似视频游戏的界面。用户可以逐步生成标记,查看概率和熵等信息。
Python
185
18
MIT License
6天前
Docs是一个基于Django和React构建的协作笔记、维基和文档平台,旨在优化知识创建与分享,支持实时协作编辑。
Python
13,229
379
MIT License
5天前
Thera是首个支持任意尺度的超分辨率方法,结合了物理观察模型,旨在提高图像质量。
Python
818
59
Apache License 2.0
1周前
MiniCheck是一个高效的事实核查工具,旨在验证大型语言模型(LLMs)在基础文档中的准确性,支持便捷的本地运行和多种模型验证。
Python
177
19
Apache License 2.0
1周前
FineVideo是一个视频数据集,共有43000+视频和3400小时的丰富标注,提供视频采集与注释的代码,支持分布式处理和Docker容器化。
Python
84
4
1周前

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.146.0. UTC+08:00, 2025-08-29 16:08
浙ICP备14020137号-1 $Map of visitor$