类库
› turboquant
0xSero/turboquant
TurboQuant是一种用于大语言模型推理的KV缓存压缩技术,可将键值对量化为3位键和2位值,集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构,实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。
TurboQuant是一种用于大语言模型推理的KV缓存压缩技术,可将键值对量化为3位键和2位值,集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构,实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。