AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

công cụ trực tuyến

công cụ trực tuyến

bảng xếp hạng

反馈

công cụ trực tuyến

trang chủ chủ đề

thư viện mã nguồn cửa hàng

thêm

AI 推理：如何实现吞吐翻倍、时延降 90%与 GPU 资源节省 26%？

出处：mp.weixin.qq.com

摘要

京东云推出新一代云原生AI推理框架，实现从手动部署到全场景AutoScale的升级。通过智能流量调度、KV缓存复用和弹性扩缩容，显著提升性能：短文吞吐增长124%，长文提升33%，GPU利用率提高26%。支持多引擎无感接入，故障自愈和拓扑优化，降低运维成本。客户案例显示，GPU吞吐提升74%，限流请求减少82%，助力AI业务高效稳定落地。

阅读原文

xiaozi 于 2026-02-11 分享

128

关联话题： #京东

欢迎在评论区写下你对这篇文章的看法。