货拉拉海豚平台-大模型推理加速工程化实践 - 在线工具

在线工具

在线工具

反馈

文库码库小摊

更多

货拉拉海豚平台-大模型推理加速工程化实践

出处：mp.weixin.qq.com

摘要

货拉拉海豚平台通过系统化工程实践，优化大模型推理架构，显著降低资源成本。平台采用业务画像驱动的资源分配策略，结合模型层和框架层优化，如量化、蒸馏、PD分离、投机采样等，提升推理效率。同时引入PagedAttention和FlashAttention技术，解决显存碎片和Attention计算瓶颈，确保高并发场景下的稳定运行与成本控制。

阅读原文

xiaozi 于 2026-03-06 分享

1515

关联话题： #货拉拉 #vllm

欢迎在评论区写下你对这篇文章的看法。

评论

据说喜欢分享的,后来都成了大神

国别域名注册8折优惠

vultr activity

tencent

只要我吃的够快，体重绝对追不上我！

文库

更多

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-07-31 07:02
浙ICP备14020137号-1 $访客地图$