AIGC产品:DeepSeek
DeepSeek(深度求索)是一家专注实现AGI(通用人工智能)的中国科技公司,成立于2023年,总部位于杭州。
DeepSeek开源库DeepGEMM 性能测评
DeepGEMM是一款高效FP8通用矩阵乘法库,支持NVIDIA Hopper张量核心,通过CUDA核心两级积累解决FP8精度问题。其设计简洁,核心内核仅约300行代码,性能在各种矩阵形状下媲美或超越专家调优库。测试显示,DeepGEMM在H20和H800上表现优异,尤其在处理大矩阵时优于Cutlass和Triton,适合大规模计算任务。总体而言,DeepGEMM在计算性能和兼容性上表现出色,是深度学习中的高效工具。
DeepSeek R1本地训练全流程实操指南,手把手教你打通其“任督二脉”
DeepSeek R1本地训练常因适配性问题受阻,本文手把手教你打通“任督二脉”。从环境搭建到训练避坑,详细解析如何在8卡A100上跑通Qwen-14B的复现,分享实用镜像与踩坑经验。教你改造代码适配自定义数据,轻松开启训练探索之旅。
DeepSeek MoE -- An Innovative MoE Architecture
DeepSeek MoE架构通过创新提升了模型效率,采用“更多更小的专家”和“知识共享专家”策略。增加了专家数量,使每个专家更专业化,同时引入共享专家减少冗余知识。这些改进显著降低了计算负载,提高了模型性能,展现了DeepSeek在模型架构上的独特创新和前瞻性。
一文了解DeepSeek及应用场景
本文详细介绍了DeepSeek大模型的发展历程、技术路线及性能优势。DeepSeek-V3和R1分别专注于通用任务和复杂推理,具有低成本、高性能特点,尤其在数学、代码等领域表现突出。其技术核心包括MoE、MLA架构及多步token预测,显著提升了推理效率。DeepSeek的开源策略和低成本API调用进一步推动了AI大模型行业的竞争与创新。
DeepSeek开源通信库DeepEP介绍
DeepSeek推出的DeepEP通信库专为大规模MoE模型优化,支持高效All-to-All通信,结合NVSHMEM、GDRCopy和IBGDA技术,显著提升训练和推理效率。DeepEP通过优化Prefill和Decoding阶段的计算Kernel,降低通信延迟,实现GPU资源的高效利用。开源周期间,DeepSeek还公开了核心代码库,推动AI技术发展。
在DeepSeek阴影(或启发)下:OpenAI o1、Kimi 1.5、Qwen 2.5技术路线解读
大语言模型技术不断进步,OpenAI o1通过自我反思和错误修正提升推理能力,可能融合了CoT、PRM和MCTS;Kimi 1.5结合长上下文CoT和强化学习,展现了深入推理的潜力;Qwen 2.5则注重数据质量和多规模模型,配合离线与在线强化学习进一步提升性能。这些模型在推理、长文本处理和强化学习方面各有创新,推动了大语言模型的发展。
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
本文深入探讨了AI大模型在本地微调和联网功能开发中的技术细节与应用场景。通过LLaMA-Factory框架,展示了如何将通用大模型微调为特定领域专家,并结合实际业务场景,如APK病毒检测、网址安全检测等,探索了AI在垂直领域的应用潜力。未来,AI技术将更加注重垂直领域的深耕与多模态应用的理性选择,推动技术与业务的深度融合。
从零开始的DeepSeek微调训练实战(SFT)
本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调,特别是针对医疗推理数据集的微调实验。通过最小可行性实验,初步验证了微调的效果,并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范,但仍需进一步优化。最终,模型权重被合并保存,为后续应用打下基础。
AI 世界生存手册(二):从LR到DeepSeek,模型慢慢变大了,也变强了
大模型发展历程中,从早期的Word2Vec、ELMo到BERT、GPT系列,模型逐渐增大并展现出更强的上下文理解能力。GPT通过预训练和微调,逐步引入Zero-shot和Few-shot学习,最终通过RLHF等技术实现与人类意图的对齐。多模态模型如ViT和Gemini进一步扩展了模型处理文本、图像等多元数据的能力,推动AI向通用智能迈进。
提升自然语言转换为 SQL 查询(NL2SQL)准确度的探索-- LLaMA-Factory 蒸馏 DeepSeek 模型的方法介绍
探索通过模型蒸馏提升NL2SQL准确度,采用DeepSeek-R1-Distill-Qwen-7B模型在Spider数据集上进行训练和蒸馏,对比满血版DeepSeek模型,发现蒸馏模型在特定语言环境下表现更优。本地蒸馏技术可行,未来可通过更大显存环境和建设元数据知识库进一步提升准确度。
AI 世界生存手册(一):从LR到DeepSeek,模型慢慢变大了,也变强了
大模型算法的发展历程,从传统机器学习到深度学习,最终走向预训练模型。机器学习通过特征工程和模型选择解决线性问题,深度学习通过神经网络处理非线性问题,而大模型则通过预训练和微调实现通用智能。算法演进的关键在于特征提取和模型优化,最终目标是实现高效、可迁移的智能系统。
DeepSeek高手进阶指南:从 A 到 Z 的实用应用全收录
DeepSeek V3/R1系列模型在游戏开发、情感陪伴、赛博算命、创意产出、办公写作和商业应用等多个领域展现出强大能力。它不仅能辅助游戏攻略、开发小游戏,还能进行情感咨询、原创角色创作,甚至参与塔罗牌占卜和传统命理分析。在创意产出方面,DeepSeek助力音乐创作、视图生成和绘本制作。办公写作中,它简化公文撰写和教学辅助。商业领域,DeepSeek提供投资建议、自媒体运营和电商辅助,展现了AI技术在实际应用中的广泛潜力。
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
DeepSeek系列模型通过多版本迭代不断提升性能。V1优化了预训练和对齐策略,V2引入MoE架构和MLA,显著提升效率,V3进一步扩展参数和数据,优化训练成本。R1系列通过强化学习增强推理能力,并探索小模型蒸馏。整体展示了从基础到高效的持续创新,为开源大模型发展提供了重要参考。
使用A10单卡24G复现DeepSeek R1强化学习过程
DeepSeek模型训练过程展示了其核心强化学习算法DeepSeek-R1-Zero的应用。通过监督微调和强化学习相结合,模型逐步提升了推理能力,解决了语言混合和可读性问题。训练中使用了多种奖励函数,确保输出格式和内容的准确性。实验表明,微调后模型在格式和答案上均表现优异,验证了强化学习在模型优化中的有效性。
细致扒一下DeepSeek-R1论文到底讲了些什么
DeepSeek-R1通过大规模强化学习提升模型推理能力,无需依赖大量人工标注数据。其训练过程采用GRPO算法和规则奖励系统,优化模型性能。冷启动阶段引入少量高质量数据,进一步提升模型表现。实验显示,蒸馏技术能显著提升小模型推理能力,而纯RL训练则需更多计算资源。未来工作将探索更高效的训练方法和模型优化路径。
DeepSeek R1范式复现笔记
本文探讨了DeepSeek R1系列技术的复现与优化,重点分析了多个开源项目在数学和逻辑题领域的应用。通过实验验证,强化学习在提升模型推理能力方面效果显著,但小模型在复杂任务上表现有限。未来需优化RL框架,提升多机训练效率,并确保思维链质量不退化,以推动长思考模型在实际业务中的应用。