RTP-LLM 在相关性大模型中的推理优化最佳实践

摘要

淘宝搜索引入3.5B MoE大模型优化相关性计算,面临超大BatchSize和超长Prompt的挑战。通过Proxy动态负载均衡、批次内KV-Cache复用和MoE Kernel动态调优等技术,成功将端到端延迟控制在500ms内,提升了搜索体验。未来将继续优化专家驻留和前缀复用,探索推理模型的性能极限。

欢迎在评论区写下你对这篇文章的看法。

评论

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.148.4. UTC+08:00, 2026-01-27 02:06
浙ICP备14020137号-1 $Гость$