类库
› llm-compressor
vllm-project/llm-compressor
LLM Compressor是用于优化大语言模型部署的Python库,支持量化算法与vLLM无缝集成。它兼容Hugging Face模型,可将模型保存为compressed-tensors格式,并支持DDP和磁盘卸载以压缩超大模型,旨在提升推理效率。
LLM Compressor是用于优化大语言模型部署的Python库,支持量化算法与vLLM无缝集成。它兼容Hugging Face模型,可将模型保存为compressed-tensors格式,并支持DDP和磁盘卸载以压缩超大模型,旨在提升推理效率。