AI产品：DeepSeek的相关资料

DeepSeek 赋能自智网络高阶演进评测报告（三）

DeepSeek V3/R1凭借高效创新与低成本优势，成为智能化转型焦点。亚信科技通过AISWare AN Evo与DeepSeek全栈适配，开展技术评测，验证其在自智网络中的应用价值。报告第三期聚焦IP网配置生成、一线装维服务、感知诊断分析和无线投诉处理四大场景，展示DeepSeek在意图识别、语义解析、知识检索等方面的表现，虽响应速度有待提升，但整体展现强大技术潜力。

DeepSeek 赋能自智网络高阶演进评测报告（二）

DeepSeek V3/R1在自智网络领域展现出高效创新与低成本优势，亚信科技通过AISWare AN Evo与其全栈适配，验证了其技术潜力。测试涵盖业务编排、数据查询、拓扑生成及故障根因分析四大场景，结果显示DeepSeek在语义解析、推理能力等方面表现优异，尤其在知识检索和文本生成上更为突出，尽管响应速度有待优化，但其在智能化转型中的技术支撑潜力显著。

Spring AI、DeepSeek 与 MCP：对话驱动的接口查询新范式

随着人工智能技术的进步，传统的静态接口调用逐渐被智能、动态的方式取代。Spring AI、DeepSeek和MCP的结合，为接口查询带来了新的可能性。通过一个实际案例，展示了如何利用对话驱动的方式实现接口查询。Spring AI简化了AI应用开发，DeepSeek提供了强大的语义理解能力，MCP则标准化了大语言模型与外部工具的交互。这种对话驱动的方式，提升了接口调用的灵活性和智能化水平。

DeepSeek 赋能自智网络高阶演进评测报告（一）

DeepSeek V3/R1凭借高效创新和低成本优势，成为智能化转型焦点。亚信科技通过AISWare AN Evo与DeepSeek全栈适配，开展技术评测，验证其在自智网络中的应用价值。评测涵盖意图理解、自主规划等维度，DeepSeek表现优异，但响应速度有待提升。报告分为四期，本期重点介绍测试方案，为自智网络高阶演进提供技术支撑。

DeepGEMM是一款高效FP8通用矩阵乘法库，支持NVIDIA Hopper张量核心，通过CUDA核心两级积累解决FP8精度问题。其设计简洁，核心内核仅约300行代码，性能在各种矩阵形状下媲美或超越专家调优库。测试显示，DeepGEMM在H20和H800上表现优异，尤其在处理大矩阵时优于Cutlass和Triton，适合大规模计算任务。总体而言，DeepGEMM在计算性能和兼容性上表现出色，是深度学习中的高效工具。

DeepSeek R1本地训练全流程实操指南，手把手教你打通其“任督二脉”

DeepSeek R1本地训练常因适配性问题受阻，本文手把手教你打通“任督二脉”。从环境搭建到训练避坑，详细解析如何在8卡A100上跑通Qwen-14B的复现，分享实用镜像与踩坑经验。教你改造代码适配自定义数据，轻松开启训练探索之旅。

腾讯技术

DeepSeek MoE -- An Innovative MoE Architecture

DeepSeek MoE架构通过创新提升了模型效率，采用“更多更小的专家”和“知识共享专家”策略。增加了专家数量，使每个专家更专业化，同时引入共享专家减少冗余知识。这些改进显著降低了计算负载，提高了模型性能，展现了DeepSeek在模型架构上的独特创新和前瞻性。

一文了解DeepSeek及应用场景

本文详细介绍了DeepSeek大模型的发展历程、技术路线及性能优势。DeepSeek-V3和R1分别专注于通用任务和复杂推理，具有低成本、高性能特点，尤其在数学、代码等领域表现突出。其技术核心包括MoE、MLA架构及多步token预测，显著提升了推理效率。DeepSeek的开源策略和低成本API调用进一步推动了AI大模型行业的竞争与创新。

阿里巴巴技术

DeepSeek开源通信库DeepEP介绍

DeepSeek推出的DeepEP通信库专为大规模MoE模型优化，支持高效All-to-All通信，结合NVSHMEM、GDRCopy和IBGDA技术，显著提升训练和推理效率。DeepEP通过优化Prefill和Decoding阶段的计算Kernel，降低通信延迟，实现GPU资源的高效利用。开源周期间，DeepSeek还公开了核心代码库，推动AI技术发展。

360技术

在DeepSeek阴影（或启发）下：OpenAI o1、Kimi 1.5、Qwen 2.5技术路线解读

大语言模型技术不断进步，OpenAI o1通过自我反思和错误修正提升推理能力，可能融合了CoT、PRM和MCTS；Kimi 1.5结合长上下文CoT和强化学习，展现了深入推理的潜力；Qwen 2.5则注重数据质量和多规模模型，配合离线与在线强化学习进一步提升性能。这些模型在推理、长文本处理和强化学习方面各有创新，推动了大语言模型的发展。

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

本文深入探讨了AI大模型在本地微调和联网功能开发中的技术细节与应用场景。通过LLaMA-Factory框架，展示了如何将通用大模型微调为特定领域专家，并结合实际业务场景，如APK病毒检测、网址安全检测等，探索了AI在垂直领域的应用潜力。未来，AI技术将更加注重垂直领域的深耕与多模态应用的理性选择，推动技术与业务的深度融合。

腾讯技术

从零开始的DeepSeek微调训练实战（SFT）

本文介绍了如何使用unsloth框架对DeepSeek R1 Distill 7B模型进行高效微调，特别是针对医疗推理数据集的微调实验。通过最小可行性实验，初步验证了微调的效果，并逐步扩展到完整数据集进行大规模微调。微调后的模型在回答医学问题时表现更加规范，但仍需进一步优化。最终，模型权重被合并保存，为后续应用打下基础。

阿里巴巴技术

AI 世界生存手册（二）：从LR到DeepSeek，模型慢慢变大了，也变强了

大模型发展历程中，从早期的Word2Vec、ELMo到BERT、GPT系列，模型逐渐增大并展现出更强的上下文理解能力。GPT通过预训练和微调，逐步引入Zero-shot和Few-shot学习，最终通过RLHF等技术实现与人类意图的对齐。多模态模型如ViT和Gemini进一步扩展了模型处理文本、图像等多元数据的能力，推动AI向通用智能迈进。

阿里巴巴技术

提升自然语言转换为 SQL 查询（NL2SQL）准确度的探索-- LLaMA-Factory 蒸馏 DeepSeek 模型的方法介绍

探索通过模型蒸馏提升NL2SQL准确度，采用DeepSeek-R1-Distill-Qwen-7B模型在Spider数据集上进行训练和蒸馏，对比满血版DeepSeek模型，发现蒸馏模型在特定语言环境下表现更优。本地蒸馏技术可行，未来可通过更大显存环境和建设元数据知识库进一步提升准确度。

七猫技术

AI 世界生存手册（一）：从LR到DeepSeek，模型慢慢变大了，也变强了

大模型算法的发展历程，从传统机器学习到深度学习，最终走向预训练模型。机器学习通过特征工程和模型选择解决线性问题，深度学习通过神经网络处理非线性问题，而大模型则通过预训练和微调实现通用智能。算法演进的关键在于特征提取和模型优化，最终目标是实现高效、可迁移的智能系统。

阿里巴巴技术

DeepSeek高手进阶指南：从 A 到 Z 的实用应用全收录

DeepSeek V3/R1系列模型在游戏开发、情感陪伴、赛博算命、创意产出、办公写作和商业应用等多个领域展现出强大能力。它不仅能辅助游戏攻略、开发小游戏，还能进行情感咨询、原创角色创作，甚至参与塔罗牌占卜和传统命理分析。在创意产出方面，DeepSeek助力音乐创作、视图生成和绘本制作。办公写作中，它简化公文撰写和教学辅助。商业领域，DeepSeek提供投资建议、自媒体运营和电商辅助，展现了AI技术在实际应用中的广泛潜力。