让 KV Cache 「按头分家」:小红书 RedKnot 如何重做长文本推理新引擎

摘要

RedKnot发现KV Cache的价值按注意力头分化,而非均匀分布。它通过按头分类稀疏、稀疏FFN和SegPagedAttention存储,将算法、存储与内核粒度统一。实验显示,该方法在保持质量的同时,最高实现5.16倍TTFT加速,单卡并发提升7.8倍,预填充算力削减近80%。

欢迎在评论区写下你对这篇文章的看法。

评论

- 위키
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-06-30 07:03
浙ICP备14020137号-1 $방문자$