类库
› sparse-upcycling-scaling-laws
sbintuitions/sparse-upcycling-scaling-laws
该仓库是ICML 2025论文《Scaling Laws for Upcycling Mixture-of-Experts Language Models》的官方代码库。主要功能是提供数据和Jupyter Notebook分析脚本,用于复现论文中关于混合专家模型从头训练与“升级再造”的扩展律实验与分析。