AI产品:DeepSeek
关联话题: 深度求索
DeepSeek(深度求索)是一家专注实现AGI(通用人工智能)的中国科技公司,成立于2023年,总部位于杭州。
DeepSeek-V3 是怎么训练的
DeepSeek-V3 以约550万美元成本开源,性能媲美Claude 3.5。在MATH 500、AIME 2024等高级数学测试中表现尤为突出,采用MLA、DeepSeekMoE架构和创新负载均衡策略,在显存和计算开销上实现优化。工程优化包括DualPipe流水线并行、通信优化、内存管理和FP8低精度训练。预训练覆盖广泛数据集,并通过两阶段策略扩展上下文长度。后训练阶段结合有监督微调和强化学习,提升模型对齐人类偏好的能力。