货拉拉海豚平台-大模型推理加速工程化实践

摘要

货拉拉海豚平台通过系统化工程实践,优化大模型推理架构,显著降低资源成本。平台采用业务画像驱动的资源分配策略,结合模型层和框架层优化,如量化、蒸馏、PD分离、投机采样等,提升推理效率。同时引入PagedAttention和FlashAttention技术,解决显存碎片和Attention计算瓶颈,确保高并发场景下的稳定运行与成本控制。

欢迎在评论区写下你对这篇文章的看法。

评论

inicio - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.0. UTC+08:00, 2026-03-07 19:53
浙ICP备14020137号-1 $mapa de visitantes$