Efficient pretraining with token superposition

온라인도구

反馈

자세히

出处：nousresearch.com

存档：存档

译文：中文

Token Superposition Training（TST）通过两阶段训练加速LLM预训练：第一阶段将连续token聚合成袋并预测袋分布，第二阶段恢复标准下一token预测。在10B MoE模型上，TST以40%时间达到同等损失，下游任务得分更高，且推理模型不变。

阅读原文

xiaozi 于 2026-05-17 分享

173

欢迎在评论区写下你对这篇文章的看法。

据说喜欢分享的,后来都成了大神

有时候，我们愿意原谅一个人，并不是我们真的愿意原谅他，而是我们不愿意失去他。不想失去他，惟有假装原谅他。------ 不管你爱过多少人，不管你爱得多么痛苦或快乐。最后，你不是学会了怎样恋爱，而是学会了，怎样去爱自己。