类库
› distributed-llama
b4rtaz/distributed-llama
Distributed Llama是一个分布式大语言模型推理框架,可将多台家庭设备连接成集群,通过张量并行和以太网高速同步技术加速LLM推理。支持多种模型,包括Llama和Qwen系列,并提供CPU、GPU及Vulkan后端支持。
标签
技术栈
查看全部依赖 (5)
依赖
NumPy
safetensors
sentencepiece
torch
transformers