货拉拉海豚平台-大模型推理加速工程化实践

摘要

货拉拉海豚平台通过系统化工程实践,优化大模型推理架构,显著降低资源成本。平台采用业务画像驱动的资源分配策略,结合模型层和框架层优化,如量化、蒸馏、PD分离、投机采样等,提升推理效率。同时引入PagedAttention和FlashAttention技术,解决显存碎片和Attention计算瓶颈,确保高并发场景下的稳定运行与成本控制。

欢迎在评论区写下你对这篇文章的看法。

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-07 14:44
浙ICP备14020137号-1 $访客地图$