Efficient pretraining with token superposition

摘要

Token Superposition Training(TST)通过两阶段训练加速LLM预训练:第一阶段将连续token聚合成袋并预测袋分布,第二阶段恢复标准下一token预测。在10B MoE模型上,TST以40%时间达到同等损失,下游任务得分更高,且推理模型不变。

欢迎在评论区写下你对这篇文章的看法。

评论

- 위키
Copyright © 2011-2026 iteam. Current version is 2.155.2. UTC+08:00, 2026-05-17 17:19
浙ICP备14020137号-1 $방문자$