0xSero/turboquant - 在线工具

在线工具

在线工具

排行榜

反馈

文库码库小摊

更多

类库 › turboquant

0xSero/turboquant

TurboQuant是一种用于大语言模型推理的KV缓存压缩技术，可将键值对量化为3位键和2位值，集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构，实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。

518 57 518 5

在 GitHub 上查看

相关项目

评论

项目信息

语言: Python
许可证: GNU General Public License v3.0
默认分支: main
所有者: 0xSero User
创建时间: 2026-03-25
最近提交: 5天前
最近更新: 1天前
收录时间: 2026-03-28

支持平台

Linux Docker CLI

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-02 14:38
浙ICP备14020137号-1 $访客地图$