0xSero/turboquant - Online Tools

Online Tools

Online Tools

Ranking List

反馈

Library Code Library Shop

More

类库 › turboquant

0xSero/turboquant

TurboQuant是一种用于大语言模型推理的KV缓存压缩技术，可将键值对量化为3位键和2位值，集成vLLM以提升内存效率并支持更长上下文。适用于密集和MoE架构，实测能释放30GB缓存、提升吞吐量并实现2倍的最大token容量。

1,106 130 1,106 10

在 GitHub 上查看

相关项目

评论

项目信息

语言: Python
许可证: GNU General Public License v3.0
默认分支: main
所有者: 0xSero User
创建时间: 2026-03-25
最近提交: 3周前
最近更新: 1天前
收录时间: 2026-03-28

支持平台

Linux Docker CLI

Home - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.1. UTC+08:00, 2026-04-20 22:14
浙ICP备14020137号-1 $Map of visitor$