cover_image

DeepSeek 赋能自智网络高阶演进评测报告(一)

欢迎关注 亚信科技新技术探索
2025年04月02日 04:05
图片
图片



编者荐语

图片

当前智能化转型加速,DeepSeek V3/R1 凭借高效创新与低成本优势成为行业焦点。亚信科技通过渊思慧见·高阶自智网络产品(AISWare AN Evo)与 DeepSeek 的全栈适配,率先开展技术评测验证其应用价值。本报告是针对 DeepSeek 赋能自智网络的技术评测,客观呈现了大模型赋能网络演进的技术潜力,诚邀业界同仁共同探讨,以推进大模型与网络智能化的深度融合创新。报告共分四期刊出,本期为第一期,重点介绍 DeepSeek 赋能自智网络的测试方案。


DeepSeek 赋能自智网络高阶演进

评测报告(一)

亚信科技(中国)有限公司


摘要DeepSeek V3 和 R1 版本因其高效性、创新性和低成本等优势,迅速成为行业热点。亚信科技自主研发的渊思慧见·高阶自智网络产品(AISWare AN Evo)已与 DeepSeek V3、R1 完成全栈适配。为了评估 DeepSeek 大模型在赋能自智网络中的技术适配性与应用潜力,落实智能化转型的战略部署,我们结合AN Evo在自智网络的具体场景应用,开展了针对 DeepSeek 赋能自智网络的技术评测。本测试涵盖了意图理解、自主规划、推理能力等多个维度,结果显示 DeepSeek 在多个方面表现出色,但在响应速度与效率等方面仍有提升空间,通过进一步优化,DeepSeek 有望为自智网络的高阶演进提供更有力的技术支撑。

由于大模型技术迭代迅速且应用场景复杂多样,本报告结论仅适用于当前测试环境。同时,因团队能力及资源限制,报告可能存在分析不足之处,欢迎业界同仁提出宝贵意见以完善后续研究。


图片

DeepSeek 简介


DeepSeek 是一家专注于通用人工智能(AGI)研究的中国科技公司,DeepSeek 由幻方量化创立,致力于开发先进的大语言模型(LLM)和相关技术。


DeepSeek 的核心技术结合了大语言模型(LLM)与搜索引擎能力,通过实时检索增强模型的知识库,解决传统 LLM 的幻觉、时效性不足等问题。其模型产品包括 DeepSeek-R1、DeepSeek-V3 等,在多项基准测试中,DeepSeek 的多维表现与 OpenAI 的 GPT 模型相当,在某些领域已经超越,但其训练成本只有 GPT-4 的 10%,高性价比、成本优势以及开源策略推动了其迅速商业化 。


DeepSeek 的模型广泛应用于自然语言处理、机器学习、编码任务等多个领域,提供智能对话、准确翻译、创意写作、高效编程、智能解题和文件解读等多种功能,其开源策略促进了全球AI开发者社区的协作和发展。


总之,DeepSeek 以其高效、开源的大型语言模型,在 AI 领域引起了广泛关注,其技术发展和应用前景备受期待。


图片

自智网络向 L4 高阶演进


自智网络的目标是要构建全生命周期端到端的自动化、智能化的网络运维能力,目前自智网络的发展正在经历从 L3 迈向 L4 高阶自智网络时代的转变,正在面临诸如系统人机交互方式单一、缺乏认知理解和逻辑推理能力以及通用知识缺乏,泛化能力弱等一系列问题,而 DeepSeek 以出色的意图理解能力、新型人机交互方式以及专业领域知识增强泛在能力等,为自智网络向高阶演进提供了强大的技术支撑。


图片

评测报告目的


本次评测 的主要目的是分析 DeepSeek 在自智网络高价值场景中的适配能力,探索其在网络业务编排、网络数据查询、故障定位和投诉处理等关键场景的应用潜力,减少其它厂家评测的复杂度,为行业应用提供实践经验,促进通信行业的技术普惠,提升通信行业的整体竞争力。


图片

亚信科技高阶自智网络产品




图片

图 4‑1:亚信科技 渊思慧见·高阶自智网络产品


亚信科技高阶自智网络产品(AISWare AN Evo)是亚信科技利用大模型技术、面向自智网络高阶演进打造的副驾与智能体工具集,自智网络副驾工具主要辅助运维人员完成网络运维工作,提升网络运维效率,自智网络智能体主要面向业务场景实现感知分析到决策执行的业务目标自主闭环。


AN Evo 使用商用或开源大模型作为大模型基座,本次我们将接入 DeepSeek,用于测试它在自智网络场景中的具体表现。


图片

DeepSeek 赋能自智网络的测试方案


(一) 测试目标


全面评估 DeepSeek 大模型在赋能自智网络中的技术性能和应用潜力,为自智网络向 L4/L5 高阶演进提供科学依据。


具体测试目标包括以下几个方面:


  • 在自智网络的应用场景中,测试并验证 DeepSeek 语义解析、推理能力、意图识别、自主规划、知识检索、文本生成方面的能力,验证 DeepSeek 在自智网络应用中的实用性;


  • 完成对几款典型大模型能力对进对比,得出当前自智网络各应用场景中模型的适用性;


  • 记录模型在不同任务下的响应时间,评估其效率是否满足实际业务需求。


通过以上测试目标的设计,本方案力求全面、客观地反映 DeepSeek 大模型在自智网络中的适用性和优势,为其进一步优化和实际部署提供参考依据。


(二) 测试环境搭建


1. 硬件环境


本次测试采用 NVIDIA A800 80GB GPU,共 16 块 GPU 显卡,其主要规格如下:


  • 核心架构:GA100,基于 Ampere 架构。


  • CUDA核心数量:6912。


  • 显存容量:80GB HBM2e。


  • 显存带宽:1935GB/s。


  • 功耗:最大 250W。


  • 接口:PCIe 4.0 x16。


2. 软件环境


测试环境的软件配置如下:


  • CUDA 12.1:用于支持 GPU 加速计算。


  • vLLM 0.6.3:高效的语言模型推理引擎,支持多种语言模型。


  • PyTorch 2.4.0:深度学习框架,用于模型训练和推理。


  • Flash Attention 2.6.3:优化的注意力机制实现,提升 Transformer 模型的性能。


  • Transformers 4.46.0:提供预训练模型库,支持多语言和多模态任务。


3. 大模型选择


本次测试选取了 5 种具有代表性的大模型,涵盖不同规模、架构和应用场景,以全面评估模型性能和适用性。具体模型如下:


  • DeepSeek-R1


  • DeepSeek-V3


  • 从主流开源模型、商用模型中选择3个典型模型:C/D/E (C 模型为现有生产调试后的模型)


(三) DeepSeek 相关通用能力


基于自智网络的应用场景当前的实际需求,本测试主要对以下 6 项能力展开测试,自智网络业务场景中使用的大模型语义解析、意图识别、推理能力、自主规划、知识检索及文本生成能力。下面对功能需求项的测试目标、测试方法和测试评价指标进行说明。


1. 自智网络场景语义解析


  • 多轮对话理解


1)      测试目标:


测试模型在多轮对话中的语义解析能力,评估其是否能准确理解上下文并生成合适的回答。


2)      测试方法:


使用多轮对话数据集进行测试,计算模型在语义连贯性上的表现。


3)      评价指标:


语义连贯性:模型生成的回答是否与上下文保持一致。


图片


准确性:模型是否能准确理解用户意图并提供正确答案。


图片

完整性:模型是否能在多轮对话中完整地解决用户问题。


图片


说明:通过多轮对话数据集评估模型在复杂对话场景下的表现。重点关注模型是否能够跟踪对话历史并生成连贯、合理的回复。


  • 同义词与近义词识别


1)      测试目标:


测试模型是否能识别同义词或近义词,并在不改变语义的情况下做出反应。


2)      测试方法:


使用包含同义词的问答对,考察模型在同义词替换后是否能正确理解问题。


3)      评价指标:


识别率:模型对同义词和近义词的识别能力。


图片


语义一致性:模型在替换同义词后是否仍能正确理解问题。


图片


说明:使用包含同义词的问答对测试模型的表现,考察其在语义变化下的鲁棒性。


2. 自智网络意图识别


  • 任务导向对话意图识别


1)      测试目标:


评估模型在任务导向型对话中识别用户意图的准确性,如查询网元数据、故障定位等。


2)      测试方法:


在给定任务场景下,比较模型识别用户意图的准确性。


3)      评价指标:


意图识别准确率:模型是否能正确识别用户意图。


图片


说明:通过给定的任务场景(如查询网元数据、故障定位)评估模型在实际业务中的意图识别能力。


  • 实体抽取与槽位填充


1)      测试目标:


评估模型在对话中提取关键信息(如时间、地点、网元名称、故障编号等)的能力。


2)      测试方法:


对比模型抽取的实体与标准答案,评估其准确性。


3)      评价指标:


提取准确率:模型是否能正确提取关键信息(如时间、地点、网元名称等)。


图片


覆盖范围:模型是否能全面提取所有相关实体。


图片


说明:对比模型输出的实体与标准答案,评估其在实体抽取上的精确度和召回率。


  • 意图与实体关联识别


1)      测试目标:


测试模型是否能在识别用户意图的同时,正确关联到相应的实体。


2)      测试方法:


考察模型在查询特定信息时,是否能正确识别并关联相关实体。


3)      评价指标:


关联准确性:模型是否能正确将意图与相关实体关联。


图片


说明:通过特定查询场景测试模型在复杂任务中的意图与实体关联能力。


3. 自智网络业务场景推理能力


  • 常识推理


1)      测试目标:


测试模型在非显性信息和隐含信息场景下,根据常识推断合理答案的能力。


2)      测试方法:


提供常识性问题,评估模型的推理表现。


3)      评价指标:


推断合理性:模型是否能根据常识推断出合理答案。


图片


隐含信息理解:模型是否能理解非显性信息。


图片


说明:通过提供常识性问题评估模型的推理表现,重点考察其在隐含信息场景下的能力。


  • 因果关系推理


1)      测试目标:


测试模型在给定前提下,推导因果关系或时间顺序的能力。


2)      测试方法:


提供故障处理步骤等场景,评估模型是否能推理出合理的处理步骤。


3)      评价指标:


因果关系准确性:模型是否能正确推导因果关系或时间顺序。


图片


说明:通过故障处理步骤等场景测试模型的因果关系推理能力,验证其在复杂任务中的表现。


4. 自智网络业务处理自主规划


自主规划能力是指大模型在给定目标或任务的情况下,能够根据已有知识和输入信息生成分步骤解决方案的能力。这种能力在自智网络中尤为重要,例如网络优化、故障处理、资源调度等场景。


1)      测试目标:


评估模型是否能够在复杂的网络环境中,基于当前状态和目标要求,生成合理的优化策略。对网络优化、故障处理、资源调度、业务开通场景进行功能测试。


2)      测试方法:


提供一个包含相关场景业务(网络优化、故障处理、资源调度、业务开通其中一个或几个场景,如流量负载、时延、丢包率等)的模拟环境或真实数据集。


给定处理方案目标(如降低时延、提高带宽利用率等),要求模型生成具体的优化步骤或后续处理方案。


验证模型输出的规划方案是否合理,并通过模拟或实际执行验证效果。


3)      评价指标:


方案合理性:模型生成的优化策略是否符合实际需求。


图片


诊断准确性:模型是否能正确分析故障原因。


图片


时效性:模型返回结果的速度是否满足实时性需求。


图片


说明:通过网络优化、故障处理、资源分配等场景的数据集进行测试,评估模型在复杂网络环境中的自主规划能力。


5. 自智网络专业知识检索


大模型能够从海量数据中快速、准确地提取相关信息的能力。


1)      测试目标:


评估模型是否能够根据输入问题或需求,从已有的知识库中检索到相关且准确的信息。


2)      测试方法:


提供多样化的问题集:涵盖常见问题(如设备配置、故障排查)、复杂问题(如多域协同优化)以及少见问题(如特定场景下的参数调整)。


以问答方式验证返回结果的准确性、全面性、时效性。


3)      评价指标:


准确性:返回结果是否完全准确。


图片


全面性:返回结果是否覆盖所有相关信息。


图片


时效性:模型返回结果的速度是否满足实时性需求。


图片


说明:通过多样化的问题集(常见问题、复杂问题、少见问题)评估模型的知识检索能力。


6. 自智网络场景文本生成


大模型能够根据输入信息生成连贯、准确、符合语境的文本内容的能力。这种能力在自智网络中的典型应用场景包括操作手册生成、自动化报告撰写、用户沟通对话等。


1)      测试目标:


评估模型是否能够根据输入信息生成高质量的文本内容,满足实际应用需求。


2)      测试方法:


提供多样化的生成任务:包括技术文档生成、故障处理流程描述、客户沟通对话等。


验证模型输出的准确性、流畅性、信息相关性、多样性。


3)      评价指标:


相关性:生成内容是否与输入信息高度相关。


图片


多样性:模型是否能根据不同输入生成多样化的输出。


图片


说明:通过多样化的生成任务(技术文档、故障处理流程、客户沟通对话)评估模型的文本生成能力。


(四)高价值测试场景选取



图片

图 5‑1:识别自智网络高价值场景


自智网络应用场景贯穿了从规划到运营的网络全生命周期,每个阶段的应用场景各有侧重。TMF 通过与多家通信服务提供商(CSPs)合作,基于网络运营的实际需求和挑战,评估出了业界参考的自智网络高价值场景,运营商自智网络向高阶演进也主要体现在各自的高价值场景上。当前运营商自智网络高价值场景主要分布在网络维护、网络优化、网络运营阶段。


图片

图 5‑2:全栈式的 AI 自智网络架构


从 TMF 的 AI 赋能自智网络的架构中可以看出,大模型通过面向用户的副驾驶(Copilot)和面向运营场景的智能体(Agent)两类应用服务赋能自智网络, DeepSeek 等大模型技术可以被应用于自智网络业务运营、服务运营和资源运营的每一层面,用于增强其自治闭环能力。


结合亚信科技渊思慧见·高阶自智网络产品(AISWare AN Evo)以及运营商实际生产中的高价值业务场景的业务需求,我们选取了网络维护、网络优化、网络运营阶段的 8 个高价值业务子场景,进行 DeepSeek 的基础大模型能力评测。


表格 5‑1:测试目标业务场景

图片


继续滑动看下一个
亚信科技新技术探索
向上滑动看下一个