阿里云 Tair 联手 SGLang 共建 HiCache,构建面向 “智能体式推理” 的缓存新范式
摘要
大型语言模型推理中,KVCache机制通过缓存历史Key-Value对提升效率,但在智能体推理场景下面临状态膨胀、跨轮次持久化缺失和多任务缓存孤立等挑战。阿里云Tair KVCache团队与合作伙伴构建了多级KVCache Offloading和全局共享方案,显著提升了缓存命中率和推理性能。SGLang HiCache技术通过分层缓存管理,突破了显存容量限制,实现了高效的KVCache卸载与预取,为长上下文和高并发推理提供了坚实基础。