腾讯一念 LLM 新版本发布:硬刚核心调度,满血版 DeepSeek 推理吞吐提升 48%

摘要

一念LLM 0.6.0版本发布,支持DeepSeek模型和分布式推理,采用流水线并行(PP)技术,跨机通讯量降低98.3%,吞吐达9084 tokens/s,比开源框架高48%。通过显存精细化管理,kv-cache可用显存增加137%,支持多batch并发执行,优化了GPU资源利用。未来将继续探索DP/EP和PD分离技术,进一步提升性能。

欢迎在评论区写下你对这篇文章的看法。

评论

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.144.0. UTC+08:00, 2025-06-24 07:21
浙ICP备14020137号-1 $Гость$