类库
› turboquant
0xSero/turboquant
TurboQuant是一种用于大语言模型推理的KV缓存压缩技术,可将键值对量化为3位键和2位值,集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构,实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。
TurboQuant是一种用于大语言模型推理的KV缓存压缩技术,可将键值对量化为3位键和2位值,集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构,实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。
Home
-
Wiki
Copyright © 2011-2026 iteam.
Current version is 2.155.1.
UTC+08:00, 2026-04-20 22:14
浙ICP备14020137号-1
$Map of visitor$