类库 › turboquant
0xSero

0xSero/turboquant

TurboQuant是一种用于大语言模型推理的KV缓存压缩技术,可将键值对量化为3位键和2位值,集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构,实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。

评论

- 위키
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-02 12:34
浙ICP备14020137号-1 $방문자$