2026-05-16 16:30:00 ~ 2026-05-17 16:30:00
Token Superposition Training(TST)通过两阶段训练加速LLM预训练:第一阶段将连续token聚合成袋并预测袋分布,第二阶段恢复标准下一token预测。在10B MoE模型上,TST以40%时间达到同等损失,下游任务得分更高,且推理模型不变。
登录后可查看文章图片
‹ 2026-05-16 日报 2026-05-18 日报 ›
关注公众号接收推送