这是一个基于OpenAI Whisper Large v3的音频转录API,通过Transformers、Optimum和flash-attn优化,提供极速音频转文本服务,支持说话人分离、异步任务和Webhook,适用于生产环境部署。
MolmoSpaces是一个用于机器人学习的大规模开源生态系统,专注于机器人操作和导航任务。它提供数据集、基准测试、场景转换工具、抓取生成以及模拟器支持,旨在构建一个端到端的机器人学习平台。
这是一个为Claude Code等编程智能体设计的技能插件,可将自然语言描述转换为美观实用的Excalidraw图表。特色包括:图表能可视化论证概念、自动包含代码片段等证据、内置Playwright渲染管道实现视觉验证和循环修正、支持品牌色彩定制。
Atlas是一个专为OpenClaw生态系统设计的AI赏金猎人人格技能。它能使自主代理自动发现、评估和执行付费任务(如漏洞赏金、自由职业工作),并在执行过程中进行严格的ROI(投资回报率)控制和止损保护,最终生成高质量交付物。
ArtHOI是一个计算机视觉研究项目,从单目或多视角视频中重建和合成人体与铰接物体(如门、抽屉)之间的3D交互动作。它利用4D重建技术,生成包含物体关节运动的逼真人机交互序列,主要用于增强现实、动画制作和机器人学习等领域。
AutoClip是一个基于AI的智能视频切片与高光提取工具,支持从YouTube/B站下载视频或本地文件上传,利用大语言模型分析内容,自动识别并切割精彩片段,生成视频合集。提供直观的Web界面进行管理。
Frappe是一个基于Python和JavaScript的低代码Web应用程序框架,特别适合构建复杂的现实世界应用。它强调通过元数据定义简化开发,支持前后端一体化,并以ERPNext作为其主要应用实例。
CountBot是一个专为中文用户优化的轻量级AI Agent框架,支持智能记忆、主动问候和多渠道统一管理。深度适配国产大模型,提供图形化配置和丰富技能插件,可通过Web、桌面客户端及飞书、钉钉等平台远程控制。
这是一个用Python开发的统一搜索工具集,提供跨20多个平台的统一搜索解决方案,支持GitHub、B站、抖音、小红书、Twitter等平台的搜索,以及图片搜索、RSS订阅搜索和播客搜索功能。
SoulX-Singer是一个高质量的零样本歌声合成模型官方推理代码库,支持用户为未见过的歌手生成逼真的歌声。它具备旋律条件(基频轮廓)和乐谱条件(MIDI音符)控制功能,可精确调整音高、节奏和表现力,并能实现音色克隆和歌声编辑。
One-DM是一个基于PyTorch的深度学习方法,仅需单张手写样本即可模仿其风格,生成任意内容的手写文本图像。该项目为ECCV 2024论文的官方实现,主要适用于手写文本生成任务。
这是一个专门为dbt设计的AI智能体技能库,包含分析工程、语义层创建、平台运维和项目迁移等技能模块。AI助手安装后能自动识别自然语言指令并调用对应技能,帮助用户更高效地执行dbt工作流程。
SAM 3D Objects是SAM 3D项目的一部分,专注于从单张图像进行通用物体的三维网格重建。它是一个基于深度学习的计算机视觉模型,可以识别和重建图像中任意物体的3D形状,常用于增强现实、内容创作等领域。
pyinfra是一个基于Python的自动化运维工具,能将Python代码转换为Shell命令并在目标服务器上执行。支持SSH远程主机、本地机器和Docker容器,可实现临时命令执行和声明式配置管理。它类似Ansible但使用Python替代YAML,并具备更快的执行速度。
Zotero MCP是一个通过模型上下文协议(MCP)连接Zotero研究文献库与Claude、ChatGPT等AI助手的工具。它允许用户与AI讨论论文、获取摘要、分析引文、提取PDF注释,并提供语义搜索、向量相似性检索等功能,从而增强研究文献的管理和交互体验。


