类库
› Quansloth
PacifAIst/Quansloth
Quansloth 是一个基于 Google TurboQuant 技术实现的本地 AI 服务器,专注于通过极致的 KV 缓存压缩来大幅降低大语言模型推理时的 GPU 内存占用。它能在消费级硬件上稳定运行超长上下文模型,实现完全的私有化、离线部署,有效避免GPU内存不足导致的崩溃。
截图
Quansloth 是一个基于 Google TurboQuant 技术实现的本地 AI 服务器,专注于通过极致的 KV 缓存压缩来大幅降低大语言模型推理时的 GPU 内存占用。它能在消费级硬件上稳定运行超长上下文模型,实现完全的私有化、离线部署,有效避免GPU内存不足导致的崩溃。