类库 › flash-moe
danveloper

danveloper/flash-moe

Flash-MoE是一个用纯C和Metal编写的AI推理引擎,能够在仅有48GB内存的MacBook Pro上高效运行一个3970亿参数的混合专家大模型(Qwen3.5-397B-A17B),实现每秒4.4个token的推理速度。它直接从SSD流式加载模型,无需Python或深度学习框架,专注于在资源受限的设备上部署超大规模模型。

3,807 470 3,807 19
在 GitHub 上查看

评论

首页 - Wiki
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-05-06 00:38
浙ICP备14020137号-1 $访客地图$