Soundwave是一个高效的语音转文本模型,旨在实现语音与文本的深度对齐,适用于交互式任务,表现出色。
Skywork-R1V是由Skywork AI开发的先进多模态AI模型系列,专注于视觉-语言推理,提供模型权重和推理代码。
MagicQuill是一个智能互动图像编辑系统,提供用户友好的界面和AI辅助编辑功能,支持精准的本地图像编辑。
MarkPDFDown是一款高质量的PDF转Markdown工具,基于大型语言模型视觉识别,能够精准提取文本,保留格式,支持复杂文档结构。
TrajectoryCrafter 是一个利用扩散模型从单目视频生成高保真新视角的工具,支持精确的相机轨迹控制。
Token Explorer是一个工具,允许用户交互式地探索大型语言模型(LLM)的标记生成过程,提供类似视频游戏的界面。用户可以逐步生成标记,查看概率和熵等信息。
Docs是一个基于Django和React构建的协作笔记、维基和文档平台,旨在优化知识创建与分享,支持实时协作编辑。
Thera是首个支持任意尺度的超分辨率方法,结合了物理观察模型,旨在提高图像质量。
MiniCheck是一个高效的事实核查工具,旨在验证大型语言模型(LLMs)在基础文档中的准确性,支持便捷的本地运行和多种模型验证。
FineVideo是一个视频数据集,共有43000+视频和3400小时的丰富标注,提供视频采集与注释的代码,支持分布式处理和Docker容器化。