让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎

온라인도구

反馈

자세히

让 KV Cache 「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎

出处：mp.weixin.qq.com

RedKnot发现KV Cache的价值按注意力头分化，而非均匀分布。它通过按头分类稀疏、稀疏FFN和SegPagedAttention存储，将算法、存储与内核粒度统一。实验显示，该方法在保持质量的同时，最高实现5.16倍TTFT加速，单卡并发提升7.8倍，预填充算力削减近80%。

阅读原文

欲望三国于 2026-06-29 分享

136

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

不要去害怕做一件事，不要害怕触景伤情，不要害怕说错话，不要害怕想起过去，不要害怕面对未来。