AI 推理:如何实现吞吐翻倍、时延降 90%与 GPU 资源节省 26%?

摘要

京东云推出新一代云原生AI推理框架,实现从手动部署到全场景AutoScale的升级。通过智能流量调度、KV缓存复用和弹性扩缩容,显著提升性能:短文吞吐增长124%,长文提升33%,GPU利用率提高26%。支持多引擎无感接入,故障自愈和拓扑优化,降低运维成本。客户案例显示,GPU吞吐提升74%,限流请求减少82%,助力AI业务高效稳定落地。

欢迎在评论区写下你对这篇文章的看法。

评论

trang chủ - Wiki
Copyright © 2011-2026 iteam. Current version is 2.153.0. UTC+08:00, 2026-02-11 21:43
浙ICP备14020137号-1 $bản đồ khách truy cập$