Pipecat是一个开源Python框架,用于构建实时语音和多模态对话代理,支持音频、视频和AI服务的无缝协作。
PDM是一个现代的Python包和依赖管理工具,支持最新的PEP标准,旨在提供简便实用的包管理体验。
Spark-TTS是一个高效的基于LLM的文本到语音模型的推理代码,使用PyTorch实现,旨在提供流畅的语音合成。
OmniSVG是首个端到端的多模态SVG生成器,利用预训练的视觉-语言模型,能够生成从简单图标到复杂动漫角色的详细SVG图形。
adk-python是一个开源的Python工具包,用于灵活地构建、评估和部署复杂的AI代理,旨在简化代理开发流程。
KTransformers是一个灵活的Python框架,旨在通过先进的内核优化和并行策略提升Transformers体验,支持各类LLM推理优化。
LightRAG是一个简单快速的检索增强生成模型,旨在提升自然语言处理任务的效率与效果。
AutoAgent是一个完全自动化且零代码的LLM代理框架,旨在简化大语言模型的使用。
TTT-Video是一个基于PyTorch的库,用于生成一分钟视频,利用测试时训练方法进行样式转换和上下文扩展。
UI-R1是一个基于强化学习的框架,旨在提升多模态大语言模型在图形用户界面动作预测任务中的推理能力,显著提高预测准确率。