AIGC:DeepSeek
DeepSeek-R1 是怎么训练的
DeepSeek-R1模型开源,引发中美互联网热议。R1性能媲美OpenAI o1,价格却低廉。其训练结合了冷启动微调和强化学习,强化学习的有效性在R1-Zero中得到验证。通过蒸馏技术,R1的推理能力可传递至小型模型。尽管R1在通用能力和语言处理上有待提升,但其在数学、代码和推理任务上表现出色,未来将继续优化和扩展应用领域。
DeepSeek-V3 是怎么训练的
DeepSeek-V3 以约550万美元成本开源,性能媲美Claude 3.5。在MATH 500、AIME 2024等高级数学测试中表现尤为突出,采用MLA、DeepSeekMoE架构和创新负载均衡策略,在显存和计算开销上实现优化。工程优化包括DualPipe流水线并行、通信优化、内存管理和FP8低精度训练。预训练覆盖广泛数据集,并通过两阶段策略扩展上下文长度。后训练阶段结合有监督微调和强化学习,提升模型对齐人类偏好的能力。
- «
- 1
- »