LLM代理：vllm的相关资料

货拉拉海豚平台-大模型推理加速工程化实践

货拉拉海豚平台通过系统化工程实践，优化大模型推理架构，显著降低资源成本。平台采用业务画像驱动的资源分配策略，结合模型层和框架层优化，如量化、蒸馏、PD分离、投机采样等，提升推理效率。同时引入PagedAttention和FlashAttention技术，解决显存碎片和Attention计算瓶颈，确保高并发场景下的稳定运行与成本控制。

货拉拉技术

当我们谈论 AI 推理的 KV Cache，我们在说什么？

Transformer架构以注意力机制为核心，突破了RNN的串行计算局限，实现了高效的并行训练。通过向量表示和注意力矩阵，Transformer能捕捉丰富的上下文信息，优化模型性能。KV Cache技术的引入进一步提升了推理效率，减少了重复计算。未来，Transformer可能迈向Post-Transformer时代，结合物理世界体验，推动AGI的发展。

阿里巴巴技术

深入vLLM大模型推理引擎源码：Multi-LoRA启动、加载、推理过程详解

vLLM 0.8.4 单机单卡启动、加载、推理流程解析，重点剖析 Multi-LoRA 实现原理。从模型加载、LoRA 适配器动态加和到推理请求调度，详细梳理了 LoRA 权重管理及 GPU 资源优化策略。通过源码解读，揭示了 Multi-LoRA 在推理服务中的应用，为构建高效大模型推理平台提供了技术参考。

58同城技术

How to run gpt-oss with vLLM

vLLM是一款高效的开源推理引擎，专为大型语言模型优化内存和处理速度。本指南详细介绍了如何在服务器上安装vLLM，并部署gpt-oss-20b或gpt-oss-120b模型，提供API服务。同时，vLLM支持与OpenAI SDK无缝集成，实现功能调用和浏览能力。无论是直接采样还是API调用，vLLM都能高效处理推理任务。

openai技术

如何监控vLLM等大模型推理性能？

本文探讨了AI推理应用的可观测性需求，提出了基于Prometheus的完整监控方案，涵盖性能、资源利用率、模型行为及分布式架构等方面。通过Ray Serve和vLLM框架的实践，详细展示了如何采集和分析推理应用的各项指标，确保高效、稳定的推理服务。全链路监控方案为开发者提供了全面的可观测性支持，助力AI推理应用的优化与扩展。

阿里巴巴技术

从源码分析 vllm + Ray 的分布式推理流程

本文从源码入手重点分析了vllm+ray如何实现分布式推理，也介绍了一些分布式通信方式及模型分布式切分的基本知识。

阿里巴巴技术