Dolphin是一个多语言多任务的自动语音识别(ASR)模型,支持40种东亚及中东语言和22种汉语方言,能进行语音识别、语音活动检测等功能。
LabelU是一个综合的数据标注工具箱,支持图像、音频和视频的数据标注,旨在提高多模态数据注释的效率。
QRDet是基于YOLOv8的高效二维码检测器,能在复杂场景中准确识别和分割二维码,适用于各种图像。
QuadrilateralFitter是一个高效易用的库,用于从不规则多边形或点云中拟合四边形,便于后续处理如透视校正或模式匹配。
DSO是一个用于改进图像到3D模型生成的工具,通过直接模拟优化方法增强生成物体的物理稳定性,适合3D打印。
AutoRAG 是一个开源框架,旨在通过自动化方式查找最优的检索增强生成 (RAG) 流水线,支持用户评估和优化自己的数据处理流程。
FastEmbed是一个轻量级、快速的Python库,用于生成文本嵌入,支持多种流行模型,适合无服务器环境。
Agno是一个开源框架,用于构建具备记忆、知识和推理能力的多智能体系统,支持从简单工具到复杂协作的多层次智能体搭建。
pipmaster是一个简单而灵活的Python包管理工具,支持自动安装和验证,提供统一的接口以管理多个包管理后端。
AlphaMaze是一个创新项目,通过文本形式的迷宫挑战大型语言模型,提高其视觉推理能力,无需图像处理。