类库
› flash-moe
danveloper/flash-moe
Flash-MoE是一个用纯C和Metal编写的AI推理引擎,能够在仅有48GB内存的MacBook Pro上高效运行一个3970亿参数的混合专家大模型(Qwen3.5-397B-A17B),实现每秒4.4个token的推理速度。它直接从SSD流式加载模型,无需Python或深度学习框架,专注于在资源受限的设备上部署超大规模模型。
Flash-MoE是一个用纯C和Metal编写的AI推理引擎,能够在仅有48GB内存的MacBook Pro上高效运行一个3970亿参数的混合专家大模型(Qwen3.5-397B-A17B),实现每秒4.4个token的推理速度。它直接从SSD流式加载模型,无需Python或深度学习框架,专注于在资源受限的设备上部署超大规模模型。