话题LLM代理 › vllm

LLM代理:vllm

如何监控vLLM等大模型推理性能?

本文探讨了AI推理应用的可观测性需求,提出了基于Prometheus的完整监控方案,涵盖性能、资源利用率、模型行为及分布式架构等方面。通过Ray Serve和vLLM框架的实践,详细展示了如何采集和分析推理应用的各项指标,确保高效、稳定的推理服务。全链路监控方案为开发者提供了全面的可观测性支持,助力AI推理应用的优化与扩展。

从源码分析 vllm + Ray 的分布式推理流程

本文从源码入手重点分析了vllm+ray如何实现分布式推理,也介绍了一些分布式通信方式及模型分布式切分的基本知识。

  • «
  • 1
  • »

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.142.1. UTC+08:00, 2025-04-01 06:21
浙ICP备14020137号-1 $访客地图$