突破显存瓶颈:基于 DeepSeek-V3.2-Exp 的 Latent Cache 卸载预取方案设计与模拟验证

摘要

DeepSeek-V3.2-Exp在长上下文推理中面临显存限制,导致Decode阶段吞吐受限。百度百舸AIAK团队提出ESS方案,通过将Latent Cache卸载至CPU内存,结合Offload-Prefetch机制,显著提升吞吐并降低成本。ESS兼容现有优化策略,通过高效数据传输和缓存管理,突破显存瓶颈,尤其在超长上下文场景下表现优异,为大规模模型推理提供高效解决方案。

欢迎在评论区写下你对这篇文章的看法。

评论

Home - Wiki
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-12 08:15
浙ICP备14020137号-1 $Map of visitor$