类库
› airllm
lyogavin/airllm
AirLLM是一个优化大语言模型推理内存使用的项目,允许70B参数模型在单张4GB显存的GPU上运行,无需量化、蒸馏或剪枝。它支持在资源受限的环境中高效部署和运行大型模型,目前还能在8GB显存上运行405B参数的Llama3.1。
标签
技术栈
根目录 python
查看全部依赖 (9)
依赖
accelerate
bitsandbytes
einops
evaluate
peft
scikit-learn
sentencepiece
transformers
wandb
截图