类库 › Quansloth
PacifAIst

PacifAIst/Quansloth

Quansloth 是一个基于 Google TurboQuant 技术实现的本地 AI 服务器,专注于通过极致的 KV 缓存压缩来大幅降低大语言模型推理时的 GPU 内存占用。它能在消费级硬件上稳定运行超长上下文模型,实现完全的私有化、离线部署,有效避免GPU内存不足导致的崩溃。

PacifAIst/Quansloth

截图

Interface
Interface

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-06 12:47
浙ICP备14020137号-1 $访客地图$