话题 › 数据结构与算法 › 贪心算法

数据结构与算法：贪心算法

用“信息增益-冲突惩罚”把数据选择做成可控的大模型微调加速器

大模型指令微调中，数据并非越多越好。研究发现，仅用10%-20%高质量数据就能达到甚至超越全量训练效果。SPICE方法创新性地引入梯度冲突惩罚，在挑选高信息量样本时避免方向冲突，让数据子集更高效。实验显示，10%精选数据即可匹配全量表现，训练成本大幅降低。这为模型微调提供了低成本高收益的新思路。