AI Infra 之模型显存管理分析

摘要

某客户部署DeepSeek-R1模型时,发现显存占用持续上升。经排查,显存增长源于PyTorch的缓存机制,而非KV Cache不足或NCCL问题。PyTorch通过Block和BlockPool管理显存,申请大块内存并预留缓存,导致显存占用增加但不会自动释放。建议调整max_split_size_mb减少碎片化,或手动调用torch.cuda.empty_cache()释放显存。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.1. UTC+08:00, 2025-04-08 00:15
浙ICP备14020137号-1 $访客地图$