话题LLM代理 › vllm

LLM代理:vllm

深入vLLM大模型推理引擎源码:Multi-LoRA启动、加载、推理过程详解

vLLM 0.8.4 单机单卡启动、加载、推理流程解析,重点剖析 Multi-LoRA 实现原理。从模型加载、LoRA 适配器动态加和到推理请求调度,详细梳理了 LoRA 权重管理及 GPU 资源优化策略。通过源码解读,揭示了 Multi-LoRA 在推理服务中的应用,为构建高效大模型推理平台提供了技术参考。

How to run gpt-oss with vLLM

vLLM是一款高效的开源推理引擎,专为大型语言模型优化内存和处理速度。本指南详细介绍了如何在服务器上安装vLLM,并部署gpt-oss-20b或gpt-oss-120b模型,提供API服务。同时,vLLM支持与OpenAI SDK无缝集成,实现功能调用和浏览能力。无论是直接采样还是API调用,vLLM都能高效处理推理任务。

如何监控vLLM等大模型推理性能?

本文探讨了AI推理应用的可观测性需求,提出了基于Prometheus的完整监控方案,涵盖性能、资源利用率、模型行为及分布式架构等方面。通过Ray Serve和vLLM框架的实践,详细展示了如何采集和分析推理应用的各项指标,确保高效、稳定的推理服务。全链路监控方案为开发者提供了全面的可观测性支持,助力AI推理应用的优化与扩展。

从源码分析 vllm + Ray 的分布式推理流程

本文从源码入手重点分析了vllm+ray如何实现分布式推理,也介绍了一些分布式通信方式及模型分布式切分的基本知识。

  • «
  • 1
  • »

Главная - Вики-сайт
Copyright © 2011-2026 iteam. Current version is 2.148.3. UTC+08:00, 2026-01-11 07:03
浙ICP备14020137号-1 $Гость$