电子行业行业深度报告:CPU研究框架
如果无法正常显示,请先停止浏览器的去广告插件。
1. 证券研究报告
电子行业
2021年1月6日
CPU研究框架
——行业深度报告
分析师:
联系人:
陈杭
李萌
执业证书编号: S1220519110008
2. 目录
一、CPU投资逻辑框架
从指令集架构看CPU市场格局
CPU产业链:先进制程数字芯片产业链
当前国产CPU发展的三大路线
我们如何看待国产CPU未来格局
二、详解CPU:IC产业中的“珠穆朗玛峰”
三、知己知彼:CPU的全球格局与行业龙头
四、国产CPU自主之路:详解六大国产CPU
3. 从指令集架构看CPU市场格局
CPU按指令集架构分类
国外企业
90% RISC
服务器、桌面
MIPS
服务器
Power PC
IOT、手机
RISC-V
Alpha
CISC
X86
90% CISC
资料来源:方正证券研究所
应用领域
嵌入式、桌
面、服务器
ARM
RISC
国内企业
\
服务器、桌面
嵌入式、服
务器、桌面
4. 国产CPU产业链—先进制程数字芯片产业链
CPU是数字芯片,基于制程越小,性能越好的规律,CPU产业链是先进制程数字芯片产业链。
当前国产CPU产业链进口替代:设计环节,华为鲲鹏,飞腾等龙头已经跻身世界一流水平,封测环节,通
富承接AMD7nmCPU封测,14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外领先
龙头差距较大,目前仍采用“外循环为主+内循环为辅”的模式。
设备 材料 EDA/IP 设计 制造 封测
北方
华创 沪硅
产业 寒
武纪 华为 中芯
国际 通富
微电
江丰
电子
盛美 中微 神工
股份
万业
企业 屹唐 安集
鼎龙
华峰
测控 华海
清科 金宏
气体
至纯
科技 精测
电子 雅克
科技
资料来源:方正证券研究所
芯原
股份
芯
华章
芯动
科技
飞腾
兆芯
申威
龙芯
海光
长电
科技
华天
科技
5. 海外CPU产业链—先进制程数字芯片产业链
CPU产业链的巨头大多集中在海外,它们位居产业链各个环节核心,对全球CPU行业起着决定性的作用。
设计环节:英特尔和AMD几乎垄断通用型CPU的市场;设备、材料、EDA/IP等环节国内龙头与国外龙头差
距较大,国产化率较低;制造环节:目前只有台积电和三星有5nm制程生产能力,但均需使用美国设备;
封测环节:目前中国台湾、中国大陆、美国三分天下。
设备 材料 EDA/IP 设计 制造 封测
应用
材料 信越
化学 新思
科技 英特尔
AMD 台
积电 日
月光
阿
斯麦 SUM
CO 苹果 安靠
东京
电子 卡
博特 英
特尔 LAM
科天 陶氏 三星 矽品
精密
爱德万
泰瑞达
住友
化学
资料来源:方正证券研究所
铿腾
电子
明导
国际
ARM
三星
IBM
高通
联发科
格罗
方德
英特尔
三星
6. 国产CPU发展的三大路线
指令集授权方式
技术路线
基于指令系统进
行SOC集成设计
IP内核授权
指令集架构授权
授权+自主研制指令集
X86内核授权
核心代表厂商
自主化程度
自主化程度:低,未来扩
充指令集难度较大,但生
态迁移成本小、性能高
缺点:安全基础不牢靠
基于指令集架构
授权自主设计
CPU核心 自主化程度:较高,安全
基础相对牢靠、拥有自主
发展权
ARM指令集授权 缺点:生态构建较为困难
自主研制指令集 自主化程度:极高,申威
已基本实现完全自主可控
MIPS架构+自研
Alpha架构+自研 缺点:生态构建极其困难
资料来源:华经情报网,方正证券研究所整理
7. 我们如何看待国产CPU未来格局
除了先进制程某些环节缺失以外,国产CPU还存在一个严重的短板,即来自于国内CPU生态建设的落后。
生态对于CPU产业影响极大。上世纪90年代,以复杂指令集为代表的英特尔凭借着与微软的Wintel体系,在通
用CPU领域占据了绝大多数份额,至今仍牢不可破。精简指令集则被逐渐挤压到嵌入式市场,后来智能手机兴
起后才获得新生:ARM通过构筑与Android的生态合作(AA体系),占据了全球95%的移动芯片授权市场。
对于X86内核授权的厂商:生态最为完善,但发展存在安全可控和技术授权两大壁垒,海光自去年被美国政府
列入实体清单后,AMD表示最新的架构不再进行授权,兆芯使用威盛电子的x86早期授权,性能相对落后。
对于Arm指令集授权厂商:生态体系与安全可控最为平衡,且通过架构授权把握主动权,随着Arm生态愈发繁
荣,若不考虑美国实体清单的负面影响,前景最为光明。
对于自研架构厂商:完全自主可控的引领者,厚积而薄发,其最大的瓶颈在于生态壁垒。
总结:目前国产CPU主要需求来自服务器、政企、工业等市场,鲜少出现在消费级市场。我们认为基于安全的
自主可控是推动国产CPU成长的主要力量,且基于架构的差异性带来的应用不同,我们认为指令集架构不会直
接消亡,不同架构都会衍生出行业龙头,考虑通用CPU等格局极为稳固,可关注物联网以及汽车等新兴领域。
芯
片
及
网
络 应
用
软
件
中
间
件
及
数
据
库 终
端
企
业
资料来源:电子工程专辑,方正证券研究所整理
8. 目录
一、CPU投资逻辑框架
二、详解CPU:IC产业中的“珠穆朗玛峰”
CPU的定义及内部结构
CPU的指令集与微架构
CPU发展历程与未来趋势剖析
CPU的需求侧与供给侧分析
三、知己知彼:CPU的全球格局与行业龙头
四、国产CPU自主之路:详解六大国产CPU
9. CPU定义和内部结构
中央处理器(Central Processing Unit)作为计算机系统的运算和控制核心,是信息处理、程序运行的最
终执行单元。CPU核心主要是由大量的运算器、控制器、寄存器组成。
运算器负责算术运算和逻辑运算。控制器负责应对所有的信息情况,调度运算器把计算做好。寄存器既要
承接控制器的命令,传达命令给运算器;还要帮运算器记录已处理或者将要处理的数据。
几乎所有的CPU的运作可以简要概括为“取”,“解码”和“执行”三大步骤,此三个步骤统称为指令周期
。通常,CPU核心从存储单元或内存中提取指令。然后,根据指令集由指令解码器执行解码,将指令转换
为控制CPU其他部份的信号。最后通过运算器中的微架构进行运算得到结果。
CPU内核的基础就是指令集和微架构。
CPU的内部组成部份和工作原理
英特尔CPU内核图
CPU
内存
进程
代
码
段
数
据
段
指令1
指令2
指令3
……
指令n
数据1
数据2
……
数据n
指令地址 指令计数器
指令 指令寄存器
控
制
单
元
内
核
控制指令
操作数地址
存储单元
数据
数据
资料来源:中国电子网,PCWORLD,方正证券研究所整理
运算单元
10. CPU指令集概述
CPU指令集(Instruction Set)是CPU中计算和控制计算机系统所有指令的集合。
指令集包含了基本数据类型,指令集,寄存器,寻址模式,存储体系,中断,异常处理以及外部
I/O,一系列的opcode即操作码(机器语言),以及由特定处理器执行的基本命令。
指令集一般被整合在操作系统内核最底层的硬件抽象层中。指令集属于计算机中硬件与软件的接
口,它向操作系统定义了CPU的基本功能。
现阶段的指令集可以被划分为复杂指令集(CISC)与精简指令集(RISC)两类。
主流CPU指令集划分及设计机构
ARM
RISC-V
MIPS
RISC
ALPHA
Power PC
SPARC
PA-RISC
CISC
X86
资料来源:太平洋电脑网,方正证券研究所整理
英特尔X86指令集
11. CPU指令集:CISC剖析
复杂指令集诞生于1960年代,在精简指令集之前,被用来解决语义鸿沟。当时的复杂指令集经过高度编
码,支持汇编语言,拥有很高的代码密度,有助于缩小程序,减少主存储器的访问次数,极大地节省了
计算机存储器和磁盘存储成本,并且速度更快。
复杂指令集是相对精简指令集而言的,所有除了精简指令集之外的都可以划归到复杂指令集之中。复杂
指令集和精简指令集的显著差异是大多数的精简指令集采用等长结构,并且严格区分存储和读取。
复杂指令集通常出现在读取和存储通过算法相连的计算机中,如服务器和个人电脑中的X86指令集。
复杂指令集的单一指令可以执行数个低阶操作程序,例如存储读取,算法运行和记忆存储,或者可以用
单一指令来实现多步操作或寻址。
随着个人计算机的普及和计算机分工的细化,复杂指令集在低算力需求的计算机中出现了“过度设计”
的现象,造成了寄存器一定程度上的浪费,精简指令集由此孕育而生,二者并行发展了近50年。
嵌入式CISC模拟机
资料来源:英特尔,CSDN,方正证券研究所整理
英特尔X86指令集和相关专利发展史
12. CPU指令集:RISC剖析
精简指令集采用小型,高度优化的指令集而非更复杂和特定化的指令。
精简指令集的主要特点是通过大量寄存器和高度规则的指令流水线优化了指令集,从而使每条指令的时钟
周期数减少。精简指令集的另一个特点是读取/存储结构,在该指令集中存储访问必须通过完整的特定指令
,而不是特定指令中的一部分。
精简指令集的思想成立于1970年代,成熟于1980年代。斯坦福大学的MIPS指令集和伯克利分校的SPARC
指令集是当时的先驱。随着2010年RISC-V的推出,精简指令集进入了开源的第五世代。
目前,精简指令集被广泛地运用于各个领域。以ARM为代表的精简指令集被广泛地运用于手机、平板等移
动终端。日本富岳超算也运用精简指令集,登顶2020年6月的超算排行榜。
基于RISC技术的8位微控制器设计
资料来源:台湾WORD,中科微知,方正证券研究所整理
RISC发展历程
1981 RISC-1
1983 RISC-2
1984 RISC-3
1988 RISC-4
2010 RISC-5
2013 EOS14 45nm
2014 首个Linux移植
2015 RISC-V基金会和SiFive公司成立
2017 RISC-V商业软件、英伟达采用RISC-V
2018 RISC-V首个商业许可
2019 首个RISC-V峰会、红帽采用RISC-V
13. CPU指令集:CISC与RISC特点的对比
CISC与RISC无论哪一方都没有绝对的优势或劣势。
从硬件角度分析:CISC采用的是不等长指令集,因此在执行单条指令时需要较多的处理工作,但是它的
优势往往在于部份特定专业领域的应用。而RISC执行的是等长精简指令集,CPU在执行指令的时候速度
较快且性能稳定,因此RISC适合采用流水线方式运作,且在并行处理方面明显优于CISC。
从性能角度分析:CISC阵营的Intel和AMD在提升芯片性能上做出了持续的努力,CISC芯片的功耗被放
在了性能后的第二位;而RISC-ARM本身出现时间较CISC-X86晚十年左右(ARM诞生于1985年,X86
诞生于1978年),ARM、MIPS在创始初期缺乏与Intel产品对抗的实力,专注于以低功耗为前提的高性
能芯片。
CISC与RISC特点对比
CISC复杂指令集 RISC精简指令集
指令系统 使用频率差别大,可变长格式 使用频率接近,定长格式,大部分为单周期指令,操
作寄存器,只有Load、Store操作内存
指令数目 一般大于200条 一般小于100条
通用寄存器数量 较少 多
寻址方式 支持多种,一般大于4 支持方式少,一般小于4
实现方式 微程序控制技术 增加了通用寄存器;硬布线逻辑控制为主;适合采用
流水线
控制方式 主要为微程序控制 主要为硬布线控制
应用场景 95%以上的PC和服务器市场 95%以上的移动计算市场
其他 研制周期长 优化编译,有效支持高级语言
资料来源:CSDN,方正证券研究所整理
14. CPU指令集:CISC与RISC发展趋势与阵营对比
CISC与RISC从上世纪后期已经在逐步走向融合,并且该趋势持续至今。例如2005年苹果通过引入
Rosetta将原先IBM的Power PC指令集转译为英特尔处理器接受的X86指令集。2020年苹果发布基于
ARM指令集的M1处理器后,将Rosetta更新为Rosetta2以便将原英特尔的X86指令集快速转译为M1的
ARM指令集。
整体来看,以高通骁龙,联发科,三星Exynos,苹果A系列为代表的ARM架构RISC处理器占据了移动
处理器的市场。而在个人电脑领域以Wintel联盟为基础的X86架构CISC处理器占据了该市场。MIPS,
Power,Alpha等架构虽然已经不是市场的主流,但在特定领域内仍然在被使用。
X86与ARM对比
苹果Rosetta2指令集转译
CPU
类型 优势
X86 • 高性能
• 个人计算
机市场产
业规模大
ARM • 低功耗、
低费用、
小体积、
• 早期芯
高性能
片性能
• 定位精准,
无法与
聚焦移动
X86抗
端市场
衡
• 授权模式
早,配套
IP完善
劣势
海外公司
中国大陆公司
ARM
• 高功耗
资料来源:eefocus,方正证券研究所整理
X86
15. CPU指令集的软件生态对比
软件生态方面,X86运行的主要为DOS,非ARM版Windows,旧版MacOS等操作系统,起步早,基
于Wintel联盟,生态完善。全世界有65%以上的软件开发商都为X86提供生态服务。
ARM方面运行的主要有安卓,iOS,iPadOS,Windows10移动版,MacOS Big Sur等。原先适应
X86指令集的软件需要经过翻译后才可运行,如苹果的Rosetta2可以将X86指令转换为ARM指令,所以
运行速度会减慢。
ARM成本低,迭代快,其软件生态正在加速追赶X86的软件生态。苹果应用商店软件数量从2008年7月
的5万个发展到2020年的342万个。同年Google Play商店有270万款可供下载的软件。
苹果APP商店应用软件数量
X86与ARM操作系统对比
指令集
X86
ARM
资料来源:Statista,Statcounter,方正证券研究所整理
操作系统
各操作系统占比
16. CPU微架构定义
微架构是(Micro Architecture)一种给定的指令集架构在处理器中执行的方法。相同的指令集可以在
不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对CPU性能和效能提升发挥着至关重
要的作用。计算机体系是微架构和指令集的结合。
众多的算数单元、逻辑单元和寄存器文件在三态总线和单向总线,以及各个控制线的连接下组成了CPU的
微架构。计算机的总线组织由CPU的复杂程度决定,二者常同向变化。
CPU微架构中常见的单元有执行端口、缓冲单元、整数运算单元、矢量运算单元等。
英特尔Core 2微架构
IBM Power 8微架构
资料来源:维基,Extreme Tech,方正证券研究所整理
17. CPU微架构工作流程概述
CPU的每个核心有独占的L1指令缓存、
L1数据缓存和L2缓存,多数核心共享L3
缓存。所有缓存中L1缓存通过虚拟地址空
间寻址,L2/L3通过线性地址空间寻址。
CPU非核心部分主要是System Agent(
系统代理):包含PCU(电源控制单元)
、DMI控制器与ICH连接、QPI控制器与
其他CPU连接、内存控制器。
微架构工作流程概述:以英特尔的Sandy
Bridge(右图)为例,CPU先使用取指令
单元(右图紫色部份),将代码段从内存
中取出;通过解码单元(右图橘色部份)
,将机器码按序转化为定长的uop(微操
作),发射到uop Decoder Queue(微
操作解密等候区);乱序单元(右图黄色
部份)从微操作解密等候区中取出微操作
,根据执行条件,依赖关系,重新排序后
,发送到Scheduler(调度器);调度器
将计算指令发送到计算单元(右图蓝色部
份),得到计算结果;将内存读写指令发
送给访存单元(右图绿色部份),完成内
存读写。
资料来源:ResearchGate,方正证券研究所整理
英特尔 Sandy Bridge 处理器核心部份
18. CPU微架构:取指单元
微架构通过执行指令“exec
()“,执行某个二进制数
时,该二进制数首先被
kernel ( 核 心 ) 从 硬 盘 加 载
到内存。
Instruction Fetch Unit (
执行获取单元)会按照执行
顺序将bin的代码段,从内存
中读入到CPU。当遇到分支
代 码 时 , 需 要 查 询 Branch
Predictors(分支预测)。执
行获取单元增加访问电路,
可以并发地访问内存、寄存
器,解决流水线气泡问题。
在Precoded(预解码)中解
码的X86指令集,会被保存到
Instruction Queue(指令等
候区),等待解码。
现在的CPU均使用超标量的
结构。例如Sandy Bridge是
16条。每个CPU cycle有16
个操作在并行执行,需要一
系列设计来保证流水线不被
中断。
英特尔 Sandy Bridge 的编译过程
英特尔 Sandy Bridge 的取指优化
资料来源:ResearchGate,Stackoverflow,方正证券研究所整理
19. CPU微架构:译指单元和乱序执行单元
Instruction Queue(执行等候区)
中取指单元获得的x86 CISC指令,会
通过译指单元翻译,以提高CPU流水
的整体能力。
一个周期有4条指令进入译指单元不同
的模块,Complex Decode(复杂解
码器)翻译单指令多数据流指令,一
个周期最大可以产生4个uops(微操
作),Simple Decode(简单解码器
)翻译普通指令,一个周期产生1个微
操 作 , 得 到 的 微 操 作 会 保 存 到 uop
Decoder Queue(微操作解码等候区
)中。
微架构的乱序执行会选择当前可执行
的指令优先执行,减少处理器闲置。
译指单元每个周期发送4个微操作到乱
序执行单元。乱序执行单元使用
Register Alias Table(虚拟寄存器到
物理寄存器的映射表)修改微指令,
把修改后的指令部分保存。
Scheduler(调度器)会将整数操作
数和浮点操作数分别保存,把映射表
存入Reorder Buffer(重新编序缓存
)。最后统一调度器选择有执行条件
的微操作发送给执行单元,没有执行
能力的微操作先缓存,待条件具备后
发送。
资料来源:ResearchGate,方正证券研究所整理
英特尔 Sandy Bridge 的译指单元
英特尔 Sandy Bridge 的乱序执行单元
20. CPU微架构:计算单元和访存单元
乱序执行单元每个周期发送4个微操作到计算单元。port0、port5可以执行整数、浮点数、整数SIMD
(单指令多数据流)所有指令,port1只能执行整数、整数SIMD乘法、移位指令,每个周期最多执行3
条指令。port2,port3,port4每个周期可以执行2个load(读取),1个store(存储)指令。
Sandy Bridge在运算单元上,通过AVX指令,大幅提升了浮点数以及SIMD的效率。
Address Generation Unit(地址产生单元)产生读写内存的虚拟地址;Load Store Unit(存取单元
)通过地址,实现读取、存储。
存取单元包含Load buffer(读取缓冲)、Store buffer(存储缓冲)、prefetch(预读逻辑)、一
致性的逻辑。存取单元读内存时,先要查询缓冲中的是否有缓存,如果命中,直接返回。当不命中时,
需要发起对内存的读取,由于读取内存大概需要200周期,代价很高,存取单元实现了预读逻辑。
英特尔 Sandy Bridge 的计算单元
资料来源:ResearchGate,方正证券研究所整理
英特尔 Sandy Bridge 的访存单元
21. 单核CPU与多核CPU
CPU核心是指控制和信息处理功能的核心电路,把一个CPU核心和相关辅助电路封装在一个芯片中,即
为传统的单核心CPU芯片,简称单核CPU。把多个CPU核心和相关辅助电路封装在一个芯片中,为多核
心CPU芯片,简称多核CPU。
下图即为ARM的单核心CPU和多核心CPU。图中红色虚线框标出的部分为CPU核心,分别为基于
ARMv7微架构的单核心CPU芯片以及ARM Cortex-A9 MPCore用2个和4个Cortex-A9构成的2核心和
4核心CPU芯片。
目前我们能见到的4核心CPU大多都是属于Cortex-A9系列。ARM Cortex-A9的应用案例有联发科
MT6577、三星Exynos 4210、华为K3V2等,另外高通APQ8064、MSM8960、苹果A6、A6X等都可
以看作是在A9架构基础上的改良版本。
ARM单核心与多核心CPU芯片
1个CPU核心(Core)
4个CPU核心
2个CPU核心
Arm单核CPU
Arm双核CPU
资料来源:半导体行业观察,方正证券研究所整理
Arm四核CPU
22. “考古”CPU:CPU发展历程
CPU发展史简单来说就是Intel、IBM、ARM的发展历史,CPU已经有四十多年的发展历史。
CPU的发展史,按照其处理信息的字长,可以分为:四位微处理器、八位微处理器、十六位微处理器、
三十二位微处理器以及六十四位微处理器等等。英特尔在大部分时间处于领先地位
CPU发展史
“史前时代”
(1971年以前)
1904年电子管被发明
1946年人类第一台计算机“ENIAC”
1947年晶体管被发明
英特尔(X86)
IBM(Power PC) ARM(ARM)
4位CPU(1971-1972) Intel 4004
Intel 4040 \ \
8位CPU(1972-1978) Intel 8008
Intel 8080
Intel 8085 \ \
16位CPU(1978-1994) Intel 80386
Intel 80486 \ \
32位CPU(1985-2014)
64位CPU(1998至今)
奔腾
奔腾2
奔腾3
奔腾4
酷睿
奔腾4
酷睿2
酷睿i系列
资料来源:维基,方正证券研究所整理
Power 2
Power 3
Cortex
Cortex
Cortex
Cortex A5 Cortex A12
A7 Cortex A15
A8 Cortex A17
A9
Power 4
Power 5
Power 6
Power 7
Power 8
Power 9
Cortex
Cortex
Cortex
Cortex
Cortex
Cortex A34
A35
A53
A57
A72
A73
Cortex A55
Cortex A75
Cortex A76
Cortex A77
Cortex A78
Cortex X1
23. CPU发展史:英特尔微架构回顾
随着2005年以Prescott为内核的奔腾4处理器在性能和效能上被AMD的K8速龙超越,英特尔采取了
“Tick-Tock”的钟摆模式,“Tick”年升级处理器的制程,“Tock”年升级处理器的微架构。以两年为
周期的钟摆模式,从“Nehalem”开始让CPU交替发展,一方面避免了同时革新可能带来的失败风险,
同时持续的发展也可以降低研发的周期,并可以对市场造成持续的刺激,并最终提升产品的竞争力。
2008-2015年的钟摆模式使英特尔CPU年均有15%左右的提升,维护了英特尔X86领域的霸主地位,并
诞生了诸如Skylake这样经典的架构,沿用至今。
2004-2020英特尔CPU微架构进化
性能
末代奔腾4
微架构
31级流水
线
超线程技
术
800MT/S
前端总线
Prescott
2004
基于奔腾
M架构
取消超线
程技术
精简流水
线级数
1333MT/
S前端总线
初代Core i
超线程技术
回归
Turbo
Boost
三级缓存
QPI总线
第二代
Core i
集成核显
Turbo
Boost
2.0
256位环
形总线
Core
资料来源:维基,方正证券研究所整理
Sunny Cove
Skylake
Sandy Bridge
2008
Willow Cove
Haswell
Nehalem
2006
第四代Core i
1.5K微操作缓
存
原生支持DDR
3内存
16条PCIE 3.0
2011
第六代Core i
DDR4内存支
持
MPX技术
SGX技术
2013
2015
第十代
Core i
18% IPC
提升
4K核显输
出
L2缓存翻
倍
2019
第11代
Core i
L2/L3缓
存加大
全RAM
加密
50%核
显升级
2020
时间
24. CPU发展史:英特尔指令集回顾
过去23年,英特尔X86指令集中的单指令多数据流指令集可以划分为MMX、SSE、AVX三块。英特尔的指令集采用叠加的方
式向前发展,从奔腾的MMX到Skylake的AVX512,指令集的位数从64位升级至了512位。单次指令的负载能力提升了8倍。
MMX指令集是多媒体拓展、多数学拓展和矩阵数学拓展的简称。初代的MMX仅提供整数运算,而不兼容浮点运算,而且当
年MMX的软件支持进展缓慢。
SSE是流式单指令多数据流的简称,该指令集创建了新的128位宽的寄存器文件(XMM0–XMM7)和新的单指令多数据流指
令,解决了MMX的核心缺点(无法将整数SIMD操作与任何浮点操作混合使用)。
AVX是高级矢量拓展指令集的简称,该指令集使用16个YMM寄存器对多条数据执行单个指令。
1997-2015英特尔CPU指令集进化
2020年Tigerlake中的指令集
资料来源:Objectcomputing,Notebookcheck,方正证券研究所整理
25. CPU发展史:英特尔制程回顾
英特尔的创始人戈登·摩尔是摩尔定律的提出者。摩尔定律的核心内容为:集成电路芯片上所集成的电路的数
目,每隔18个月就翻一番;微处理器的性能每隔18个月提高一倍,而价格下降一半;用一美元所能买到的计
算机性能,每隔18个月翻两番。
CPU的制程通常表示晶体管或栅极长度等特征尺寸。在门间距(CPP)和最小金属间距(MMP)都缩小30%的
情况下,晶体管的面积就能减小一半,那么就能放入2倍数量的晶体管,摩尔定律也随之成立。
在过去的40多年的摩尔定律时代,英特尔通过将CPU的制程由4004的10微米提升至了Skylake的14纳米,
运用FinFET等先进技术,遵守“钟摆战略”,在CPU Die中放入更多的晶体管,提升处理器性能。
1971-2015英特尔CPU的摩尔定律演化
资料来源:英特尔,方正证券研究所整理
英特尔Tick-Tock战略下CPU的制程进化
26. CPU的发展趋势:微架构升级概述
CPU微架构的提升往往伴随着指令集的更新与优化。微架构的提升可以分为两部分的改进,一个是通用性能的提
升,往往称其为IPC(Instruction Per Clock,即CPU每一时钟周期内所执行指令的多少);另一个是专用性能的
提升,往往需要优化代码,进行改写和重新编译才能获得收益。
CPU的通用计算性能是由IPC、主频、指令数三者共同决定。IPC的提升是CPU通用性能提升的必要条件。主频的
提升通常由CPU制程的进步产生。
微架构通用性能的提升的宏观思路是“更宽,更深,更智能”。“更深”:为平行计算找出更大的机会;“更宽
”:在平行计算中执行更多的操作;“更智能”:用更新和更好的算法来减少延迟。IPC的提升就发生在处理器的
前端(取指译码)、缓冲区(调度和暂存乱序执行下的微操作)和后端(执行指令、获取操作数、记录结果)。
IceLake处理器的SunnyCove微架构是英特尔2015年以来首次使用的全新微架构,它的IPC相较于上代Skylake
提升了18%。
CPU的通用性能计算公式
资料来源:英特尔,pcbuildersclub,方正证券研究所整理
SunnyCove相较于Skylake的IPC提升
27. CPU微架构的通用性能发展:更深、更宽、更智能
微架构的“更深”方面:SunnyCove相较
于Skylake在乱序重排缓冲区、下载缓冲区
、存储缓冲区、保留站、一级数据缓存、二
级缓存、微指令缓存、二级转译后备缓冲区
缓存等关键结构进行了扩充。
微架构的“更智能”方面:SunnyCove相
较于Skylake提高了分支预测的准确性、减
小了有效读取的延迟、以客户使用为导向。
微架构的“更宽”方面:SunnyCove相较
于Skylake在宽分配、执行端口、一级存储
位宽、每个执行端口的处理能力(例如
SIMD shuffle,LEA)都得到了提升。
Sunny Cove的概述和“更智能”升级
资料来源:英特尔, pcbuildersclub,方正证券研究所整理
Sunny Cove的“更深”升级
Sunny Cove的“更宽”升级
28. CPU微架构的专用性能提升
CPU微架构专用性能的提升通常涉及新的指令集(二者不可完全割裂),需要优化代码,进行改写和
重新编译才能获得收益,往往是一些专用计算单元或SIMD指令和执行单元的改进。
SIMD(单指令多数据流)是代码现代化中的重要组成部分—矢量化的标志性指令,SunnyCove微架
构继承并改进了Skylake的半吞吐的AVX512处理器,SIMD的支持从256位的AVX2 FMA来到512位
的AVX512 FMA。
同时,SunnyCove后端新增的Shuffle(洗牌)单元可以快速地洗牌矢量寄存器中的数据,为下一次
的矢量运算做好准备,有效减小延迟。
Sunny Cove的Skylake的微架构的矢量单元对比
资料来源:英特尔,Jaist,方正证券研究所整理
SunnyCove洗牌单元的洗牌指令
X3 X2 X1 X0
Y3 Y2 Y1 Y0
Y3…Y0 Y3…Y0 X3…X0 X3…X0
29. CPU指令集的发展趋势:更多、更全
指令集升级的“更多”:指令集总数的
上升以及指令集的二进制位数上升。
纵观CPU指令集的发展史,新指令集的
产生不会废除原有的指令集。指令集的
发展是采用叠加的方式进行的,以保证
整个系统的兼容性。例如第11代酷睿
Tigerlake比上代的Icelake,多了虚拟
化的VT-X指令集。
指令集升级的“更全”:新CPU相较于
旧CPU对单一大类下的指令集子类支持
更全面。
英特尔AVX512(512位高级矢量指令
集)指令集相较于上代AVX2(256位
高级矢量指令集)指令集,理论每周期
的单精度和双精度浮点运算翻倍,在保
持功耗下将的前提下,综合性能有80%
以上的提升,效能也大幅升级。
英特尔第十代Icelake酷睿在第六代
Skylake酷睿的基础上,支持IFMA(整
数融合乘加)、VBMI(矢量位操作)
、4FMAPS(包装单精度融合乘法累
加)、VNNI(矢量神经网络指导)。
这些指令集加强了Icelake在人工智能
—神经网络方面的算力。
英特尔AVX512指令集的性能和效能提升
英特尔AVX512指令集的支持范围
资料来源:Wikichip,Techpowerup,方正证券研究所整理
30. CPU指令集的发展趋势:ARM奋起直追X86
微架构是指令集在CPU中的执行方法。指令集和微架构共同构成了CPU内核,它们决定了CPU每个周期内的指令数,并最终影
响CPU的性能。所以指令集从根部支撑CPU的运作,处于核心的地位。
ARM于2011年进入64位时代,比X86-64晚了十年。但是ARM凭借开源、异构运算、可定制化等一系列优势,在苹果、高通
、三星、华为、英伟达等方面的努力下,ARM架构立足于低功耗的移动市场,紧抓云化和移动计算的时代红利,不断向高性能
台式和服务器领域冲击。
在移动计算领域,苹果A系列和M1处理器逐步赶超英特尔的X86处理器。苹果A13在晶体管密度与1165g7相近,线程数少于
对方1/4,主频低于对方1/2的情况下,在性能方面领先英特尔1年,我们强烈看好Arm未来前景。并且苹果在软件生态上通过
Rosetta 2和Universal 2,使原先基于X86的软件可以无缝地运行在M1芯片中,软件生态已经不再成为ARM的阻碍了。
在服务器领域,ARM的新星架构“Neoverse”,在单核心方面追平AMD和Intel的服务器CPU的同时,凭借ARM并行计算、
能耗控制、易拓展性的优势,在多核性能方面超过对手60%以上。ARM的性能已经不再成为短板。
英特尔与苹果处理器性能对比
服务器领域的X86与ARM多核性能对比
资料来源:Anandtech,21ic中国电子网,方正证券研究所整理
31. CPU制程的发展趋势:先进制程为导向
CPU性能的三大决定因素为主频、IPC、指令数。这些因素中主频通常是由CPU的制程决定的。
制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯
比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的
7nm工艺更接近英特尔的10nm工艺。
先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在CPU体积不变下实现更高的性能;先进制程可以提
升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。
先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应
晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。
先进制程工艺之FinFET
英特尔10nm先进制程带来的性能和效能提升
资料来源:英特尔, eetimes ,CNX,方正证券研究所整理
32. CPU制造的发展趋势:Fab+Fabless为导向
CPU制造可分为IDM和Fab+Fabless。
IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。
Fabless只负责芯片的电路设计与销售,将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只
负责制造,不负责芯片设计,可以同时为多家设计公司服务,但受制于公司间的竞争关系。台积电为Foundry的代表。
目前英特尔CPU落后的主要原因是CPU制程的落后,根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制
程的发展,芯片的制造成本和设计成本成指数级上升。同时,一条12英寸晶圆的生产线从建设到生产的周期约2年,投
资至少30-50亿美元,资本支出占比80%,整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线
作战。
Fab+Fabless的模式通过充分发挥比较优势,分散了CPU设计和制造的风险,符合半导体分工的大趋势。
IDM与Fab+Fabless对比
CPU制造
优势
劣势
IDM • 设计和
制造协
同优化 • 规模过
大
• 成本高
• 回报率
低
Fab+Fa
bless • 设计和
制造分
开,发
挥比较
优势
• 多样化
制造和
设计组
合,风
险分散 • 沟通成
本大
• 协作难
度大
芯片设计费用趋势(亿美元)
海外公司
中国大陆公司
\
资料来源:Semi Engineering,只谈科技,方正证券研究所整理
33. CPU需求概述
冯诺依曼于1945年发表了《First
Draft of a Report on the EDVAC
》(EDVAC初稿),在这篇报告中,
冯诺依曼提出了“冯诺依曼体系结构
”,明确指出了计算机必须具备的5大
部件:运算器、控制器、存储器、输
入设备、输出设备。
CPU作为控制器、运算器、存储器的
结合体,提供通用算力,能处理不同
的数据类型,成为了计算机的刚需。
CPU作为硬件层,支撑着Windows、
IOS、安卓等系统软件层的启动,进而
推进汽车电子、服务器、PC等应用层
的发展,所以CPU的价值不可取代。
各个应用领域的CPU标准是不同的。
例如,在一些高可靠性应用场景,如
汽车电子的CPU需要满足AEC-Q100
车规认证;服务器的CPU特别看重多
核表现和并行处理的能力;个人电脑
的CPU注重单核表现,同时需要平衡
体积、性能、效能表现;移动设备和
智能穿戴的CPU把便携和节能放在第
一位。
资料来源:百度百科,方正证券研究所整理
CPU对行业的底层支撑
应用层
系统软件
汽车 智能手表
手机 游戏主机
电脑 服务器
Windows、安卓、IOS、Linux等
硬件层
CPU
冯诺依曼计算机体系
CPU
输
入
设
备
运算器
控制器
内存储器
外存储器
输
出
设
备
34. CPU供给概述
CPU的供给涉及设计、制造、封测三个主要环节,整体供给模式有IDM和Fab+Fabless两种。
IDM模式将设计、制造和封测集中在一起,代表厂商有X86阵营的英特尔,ARM阵营的三星。Fab+Fabless模式的代表有
X86阵营的AMD设计,台积电制造,通富微电封测;ARM阵营的苹果设计,台积电制造,日月光封测。
目前CPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业华为和中芯国际遭到美国实体清单限制
,未来发展艰难。封测方面,长电科技和通富微电已经掌握先进封测技术,已经有能力为苹果、AMD提供封测技术支持。
CPU产业链
全球CPU设计厂商
资料来源:方正证券研究所
全球CPU制造厂商
全球CPU封测厂商
35. CPU的需求侧推动:汽车CPU概述
随着汽车的含硅量上升、功能的多样化,汽车的电子工程架构也将随之从分布式向中心化发展。同
时,由于自动驾驶需要对整车进行控制,因此计算资源势必要集中化,自动驾驶芯片应运而生。
以新能源车的标杆特斯拉为例,下代HW4.0将同时集成ADAS(先进辅助驾驶)、电动汽车动力
传动、车载信息娱乐系统和车身电子四大功能。由此可见,自动驾驶芯片不仅是自动驾驶领域的计
算中心,而且是整车的核心。所以汽车CPU对未来整个汽车行业具有决定性作用。
目前自动驾驶芯片的供应商可以简单分为2派。其一,是以特斯拉为代表的“自主”派,采用类似
于苹果公司的模式,自主设计芯片,不对外开放技术,软硬件的整合在公司内部完成。其二,是以
英伟达、华为为代表的“开放”派,采用类似于安卓的模式,对外开放技术,服务其他车企,自己
不造整车。具体模式的选择需要综合地权衡灵活性和契合度。
汽车电子工程中心化
资料来源:博世,Cypress官网,方正证券研究所整理
车载ADAS系统的CPU
36. CPU的需求侧推动:汽车CPU市场
政策方面,中国发布了《“十三五”汽车工业发展规划意见》,对智能网联汽车发展设定目标:具有驾驶
辅助功能的网联汽车当年新车渗透率达50%,有条件自动化的汽车当年新车渗透率达10%,到2020年我
国初步建立能够支撑驾驶辅助及低阶自动驾驶的网联汽车标准体系。
汽车制造商自2015年起开始整合L2自动驾驶。L2自动驾驶包括若干硬件传感器(多个摄像头、超声波和
雷达)及能够支持ADAS功能(如自适应巡航控制、车道居中控制和自动转向)的软件组合而成。
预计,在2020年全球出售的汽车中,约有8%配置L2及以上自动驾驶功能。到2025年,在全球售出的汽
车中,预计约有30%将支持L2或以上自动驾驶功能。到2030年,该比例将超过50%,届时全自动驾驶汽
车将超过50%。根据IDC预测,全球L1及以上自动驾驶汽车数量将由2019年的3140万辆,上涨至2024年
的5420万辆,5年复合增长率为11.5%。
汽车自动驾驶等级稳步上升
2020造车新势力的无人驾驶竞争格局
10月13日特斯拉签约
落户海南设立新能源汽
车创新中心项目。
10月21日,蔚来成立
独立硬件团队,内部叫
做“Smart HW
(hardware)”
10月20日,小鹏汽
车第10000量P7正
式下线。
资料来源:西部数据公司,新浪汽车,易车,方正证券研究所整理
37. 汽车CPU需求—特斯拉FSD
2019年特斯拉发布了自研芯片Tesla FSD
(全自主驾驶),通过了AEC-Q100车规
级认证,支持L3级别的自动驾驶。FSD采
用了三星14纳米FinFET工艺。一块自动驾
驶电路板会集成两颗FSD芯片,执行双神经
网络处理器冗余模式,两颗处理器相互独
立,即便一个出问题另一个也能照常执行。
特斯拉FSD芯片中的每颗NPU有一个
96*96的MAC矩阵,单颗NPU工作在
2GHz,算力最高达36.86 TOPS,远超
GPU。同时芯片中有专用的COU负责安全
系统,具有最终控制权。
每颗NPU有32MB的SRAM用以存储暂时
的网络数据,减少数据流向主内存。
NPU每个周期有256位字节的激活数据和
128位字节的权重数据从SRAM中被读取后
进入MAC阵列被加以计算。每个周期结束
有128位字节的结果数据被重新写入SRAM。
特斯拉与博通合作开发新一代的HW4.0硬
件,将采用台积电7nm工艺生产,它将被
用于多种功能,包括Autopilot、自动驾驶
以及信息娱乐功能。
资料来源:维基,方正证券研究所整理
特斯拉FSD示意图
特斯拉FSD内核
38. 汽车CPU需求—英伟达Xavier
NVIDIA DRIVE™AGX嵌入式超级计算平台处理来自摄像头,雷达和激光雷达传感器的数据,来感知周围环
境,将汽车定位在地图上,并规划和执行安全的前进路线。该AI平台以紧凑,节能的包装支持自动驾驶、
车内功能、驾驶员监控、其他安全功能。
NVIDIA DRIVE AGX Xavier™可以为2级、3级自动驾驶带来每秒30万亿次的运算。
DRIVE AGX Xavier包含6种不同的SoC,它们包括CPU、GPU、深度学习加速器(DLA)、可编程视觉加
速器(PVA)、影像信号处理器(ISP)、立体/光学流加速器。
英伟达Xavier内核
资料来源:NVIDIA,Wccftech,方正证券研究所整理
英伟达Xavier参数
核心 8-core“Carmel”CPUs
based on ARM v8 ISA
深度学习
加速器 5 TOPS (FP16) | 10 TOPS
(INT8)
GPU 20 TOPS (INT8) | 1.3
TFLOPS (FP32)
可编程视
觉加速器 1.6 TOPS
ISP 1.5 Gigapixels/s
内存带宽 136 GB/s
相机I/O 90 Gb/s over 16x GMSL(R)
ports
TDP 30 W
39. 汽车CPU需求—华为智能驾驶
2020年10月30日,华为发布智能汽车解决方案新品牌“HI”。据官方介绍,“HI”是全栈智能汽车解决方案,包
括智能座舱、智能驾驶、智能网联、智能电动、智能车云、以及激光雷达等整套零部件,帮助车商快速开发智能汽
车。
华为智能驾驶涉及到感知、融合、定位、决策、规划、控制等多个环节。激光雷达的点云数据处理需要大量CPU算
力,摄像头数据需要AI算力;定位、决策、规划、控制等强逻辑处理的环节需要CPU算力。
集合了鲲鹏CPU芯片和昇腾AI芯片的MDC平台为多样化的智能驾驶提供了算力支撑。
华为MDC SoC的组成
鲲鹏920
昇腾910
计算核 ARM 8.2、最高主频3.0Ghz,单处理器最高64核 架构 达芬奇
缓存 L1: 64 KB instruction cache and 64 KB data
cache
L2: 512 KB private per core
L3: 24–64 MB shared for all(1 MB / core) 性能 320 TFLOPS@FP16
640 TOPS@INT8
内存 8 DDR4 channels per socket, up to 3200 MHz 高位宽缓存 4x HBM2E,1.2 TB/s bandwidth
SRAM 3D-SRAM stacked below AI SoC die
互联
华为HCCS互联协议,支持最高4路互联
I/O 40 PCIe Gen 4.0 lanes
2 x 100GE, RoCEv2/RoCEv1, CCIX
x4 USB 3.0, x16 SAS 3.0, x2 SATA 3.0 On-chip
buffer 32 MB
功耗 TDP:100-200 W 最大功耗 310W
资料来源:MDC智能驾驶计算平台白皮书,华为官网,方正证券研究所整理
40. CPU的需求侧推动:服务器CPU概述
服务器CPU,即在服务器中使用的CPU,它从底层支持着这个服务器产业链。不过服务器是网络中的重要设备,要
接受少至几十人、多至成千上万人的访问,因此对服务器具有大数据量的快速吞吐、超强的稳定性、长时间运行等
严格要求。
按指令集划分,通常分为CISC型CPU和RISC型CPU两类,后来又出现了一种64位的VLIW(Very Long
Instruction Word超长指令集架构)指令系统的CPU。
按CPU路数划分,服务器可分为单路、双路、四路服务器等,路数增加,性能也增加。一般来说,单路、双路服务
器是中低端产品;四路及以上或大型机属于高端产品。
服务器CPU按指令集划分
ARM(华为、飞腾、
架构
Ampere、Marvell)
特点
价值
生态
X86(Intel、
AMD)
服务器产业链
MIPS、
Power、
Alpha
部分特定的应
高主频、高功耗, 用场景:桌面
众核架构,适合高并发、
覆盖高性能和通
(MIPS),超
高带宽的计算场景;
用计算场景
算(Alpha、
Power)
提升计算效率,节能、
省空间。高效能计算带
来高性价比 驱动性能增长的
工艺改进边际成
本激增,摩尔定
律难以为继 Power、Alpha
性能强劲,在
小型机、超算
应用领域有长
期的成功应用
IP授权商业模式,生态
开放和融合,数据中心
应用生态逐步完善 数据中心应用生
态完善,但产业
被垄断、把控,
无法合作共赢 应用生态匮乏,
参与者较少,
长期商业和技
术路线不明确
应用层 云计算、大数据、人工智能、(移动互
联网、物联网
基础设施 传统数据中心、云计算数据中心
基础软件
操作系统、虚拟化、数据
库、HCI
SDN、
NFV
硬件层 服务器 存储阵列 网络设备
路由器、
交换机
芯片层 计算芯片
CPU、
GPU 存储介质
HDD、SSD、
DRAM 基础软件
光电芯片
资料来源:中国产业信息网,边缘计算IT基础设施白皮书1.0,方正证券研究所整理
41. CPU的需求侧推动:服务器CPU
鉴于服务器CPU对数据的吞吐量、系统稳定性、拓展性要求高,相配套的主板及周边设施在这些方
面也需要强化。服务器主板上常配备统一的中央芯片组,可以连接多个服务器CPU、内存插槽、
PCIE插槽、USB、网卡。通常在硬件成本构成上,CPU、芯片组、内存、外部存储占比都很高。以
一台普通的服务器生产成本为例,CPU及芯片组大致占比50%左右,内存大致占比15%左右,外部
存储大致占比10%左右,其他硬件占比25%左右。
服务器CPU及周边设施在新一代协议标准也具有带头作用。伴随着新一代的PCIE5.0标准、DDR5内
存,服务器的理论传输速度将翻倍。
英特尔至强可拓展处理器微架构
资料来源:英特尔,方正证券研究所整理
英特尔至强C612芯片组架构
42. CPU的需求侧推动:服务器CPU市场格局
当前的全球服务器CPU市场是一个由寡头英特尔
和X86处理器控制的格局,不过随着AMD服务器
CPU EPYC的强势崛起,英特尔的份额开始下降。
2020年Q3全球服务器市场的供应商收入同比增长
2.2%,增速缓慢。X86服务器CPU在同期的收入
为209.3亿美元,占所有服务器收入的92.8%。非
X86 服 务 器 CPU 同 期 收 入 为 16.4 亿 美 元 , 占 比
7.2%。在所有的X86服务器CPU中,英特尔占比
超过90%。
预计未来5年,整个服务器市场将保持12%的同比
增速。2025年全球服务器供应商收入有望达到
280亿美元。中国大陆服务器供应商浪潮、华为、
联想有望取得更大的市场份额。
X86与非X86服务器收入趋势和对比
资料来源:IDC,Quora,ITjungle,方正证券研究所整理
英特尔与AMD服务器CPU份额对比
2020 Q3 全球服务器供应商市场份额
43. CPU的需求侧推动:服务器CPU龙头英特尔
英特尔在服务器CPU领域的布局,自首款产品Pentium Pro推出以来,已经有25年之久。
近12年来,英特尔服务器CPU的平台包括:Thurley、Romley、Grantley、Purley和Whitley,公司预
计2021年发布全新的Eagle Stream。这些服务器CPU的演化几乎采用了和桌面CPU相同的“Tick-Tock”
(钟摆)战略,即在“Tick”时升级CPU的制程,而在“Tock”时升级微架构。
2017年以来,英特尔将服务器CPU的原有的E7、E5、E3产品线由高到低细分为Platinum(铂金)、Gold
(金)、Silver(银)、Bronze(铜),满足从低阶的中小企业到高阶的人工智能,不同的性能需求。
2020年6月,英特尔发布了最新的Whirley平台的Cooper Lake服务器CPU,使用14nm++制程,支持8
通道DDR4 ECC内存和PCIE 3.0协议。
英特尔服务器CPU产品线
资料来源:英特尔,方正证券研究所整理
44. CPU的需求侧推动:拆解安卓手机CPU
智能手机由于空间和能效的限制,无法将CPU单独列出,所以手机处理器常被称为SoC(System On
Chip,片上系统)。手机SoC一般同时集成了CPU、GPU、基带、ISP、DSP、NPU、其他各相关部件。
手机SoC对先进制程和先进封装非常看重,如高通骁龙865处理器使用台积电的7nm制程和SIP先进封装
来有效提升手机芯片的晶体管密度和性能表现。
2020年高通骁龙865的Kryo 585 CPU使用了半定制化的ARM Cortex A77架构,在保持相同主频和缓
存容量的前提下,相较于前代骁龙855的Kryo 485,在性能和效能上都有25%的提升。同时Kyro 585
CPU首次支持LPDDR 5 RAM,在电压和功耗下降的前提下,相较于前代LPDDR 4X在带宽上提升28%。
三星S20 Ultra CPU拆解
骁龙865 SOC 内部解析
威讯联合:
前端模组
高通骁龙
865+12GB
LPDDR5
RAM
高通:
X55 5G模组
三星:
UFS 3.0 闪存
高通:
功率放大模组
资料来源:维基,ifixit,方正证券研究所整理
45. CPU的需求侧推动:拆解苹果iPad CPU
平板电脑与智能手机相似,处理器常被称为SoC(System On Chip,片上系统)。平板SoC一般同时集
成了CPU、GPU、ISP、DSP、NPU、其他各相关部件。不过平板的空间不如手机般局促,而且平板对处
理器的性能有更高的要求,通常会配备更多的PMIC(电源控制器)、“满血版”的手机SOC或专为平板
设计的SOC,如iPad Pro系列的A12X芯片。
平板SoC对先进制程和先进封装非常看重,如苹果A14处理器率先使用台积电的5nm制程和SIP先进封装
来集成118亿晶体管,晶体管密度达到1.34亿个每平方毫米,有效提升性能表现。
2020年苹果的A14 自研CPU使用了ARM v8系列指令集,相较于前代A13芯片,在核心数不变的情况下
,CPU性能提升了16%。
苹果A14芯片Die
USB
Type-C
苹果A14芯片Die
苹果
A14+4GB
RAM
基带电源控
制器
64 GB
NAND
USB 3.0
控制器
前端控制
模组
调制
解调
器
前端
控制
模组
包络
追踪
器
电源控制
器
前端控制
模组
电源控制器
电源控制器
WIFI&蓝牙
控制器
射频接收
器
资料来源:Extremetech,Unitedlex,方正证券研究所整理
低噪放大器
46. CPU的需求侧推动:手机、平板的CPU发展
纵观全球智能手机和平板市场,智能手机的出货量在
12亿部以上,是同期平板出货量的8倍以上。
随着移动通讯进入5G时代及5G技术的亲民化,5G手
机的换机将带动整个手机市场复苏。预计未来5年手
机的出货量将保持1.7%的同比增长,2024年出货量
将超过14亿部。
全球智能手机CPU基本全部采用ARM指令集。截至
2020Q3,联发科和高通是最主要的手机CPU供应商
,市场份额分别为31%和29%。
截 至 2020Q2 , 全 球 平 板 电 脑 的 CPU 大 部 分 采 用
ARM 指 令 集 , 占 比 超 过 50% , 还 有 部 份 使 用
Windows系统追求高性能的平板采用英特尔的X86
CPU,占比18%。
全球智能手机出货量和平均售价预测
2020 Q3 手机处理器份额
2020 Q2 平板应用处理器份额
资料来源:IDC,Strategy Analytics,Counterpoint,方正证券研究所整理
47. CPU的需求侧推动:拆解PC的CPU
自从上世纪80年代后期“Wintel”(微软Windows操作系统+Intel处理器)联盟成立后,PC市场的格
局便由最初的混乱逐渐向头部集中。在打败苹果、IBM、摩托罗拉的Power联盟后,Wintel联盟就垄断桌
面市场长达20多年。所以目前几乎所有的PC都采用英特尔或AMD的X86 CPU。
PC的CPU需求不同于追求多核性能、多路互联和并行处理的服务器CPU,不同于追求高度稳定的汽车
CPU,不同于追求省电和小体积的手机/平板CPU。PC的CPU更追求单核性能,需要在性能、拓展性、能
效方面做到平衡。拥有先进制程和封装,TDP(热设计功耗)15W(低压)-45W(标压)的X86 CPU可
以满足笔记本电脑的计算需求,TDP 65W-125W 的X86 CPU可以满足台式电脑的计算需求。
2020年英特尔和AMD分别将PC CPU更新到了10/11代酷睿和以Zen 3为内核的Ryzen 5000系列,这
也是AMD首次在制程和微架构方面全面领先英特尔。
英特尔Skylake的Die
资料来源:AMD,TechPowerUp,方正证券研究所整理
AMD Zen 3 微架构
48. CPU的需求侧推动:PC的CPU发展
据Gartner统计,2020Q3全球PC的出货量达到
7140万台,同比增长3.6%,主要由疫情造成的
居家娱乐、工作和学习推动。
预计今年PC出货量将超过2.8亿台,达到未来5年
年PC的出货量将长期稳定在此水平。
整体来看,在PC市场领域,英特尔占据近60%的
市场份额,而AMD占据40%的份额。不过随着
2017年Ryzen处理器的发布,AMD的市场份额呈
现出加速上升的趋势。这一现象在台式处理器中
尤为明显,在该领域英特尔与AMD的市场份额差
距已经旗鼓相当。但是,AMD在笔记本CPU方面
与英特尔仍存在较大市场差距。
PC市场增速预测
台式机CPU市场份额
同
比
增
速
出货量
(百万台)
商用
笔记本CPU市场份额
消费
资料来源:IDC,Eteknix,Tech4Gamers,方正证券研究所整理
49. CPU的供给—英特尔
英特尔在全球有九家制造厂,其中有六家晶圆厂、三家组装测试厂。英特尔主要的逻辑晶圆厂位
于美国,其中在俄勒冈、亚利桑那、以色列的晶圆厂有生产10纳米晶圆的能力。2019年英特尔用
20%的营收投资14纳米和10纳米的晶圆产能,预计2020年PC方面的晶圆供给会同比增加25%。
不过近年来,英特尔在制程节点的落后(7纳米宣布推迟至2022年)、10纳米和14纳米先进产能
的不足,英特尔可能在2021将18万个晶圆的代工交给台积电负责,使用台积电的6纳米工艺。
英特尔全球产业链地图
亚利桑那
俄勒冈
马来西亚
爱尔兰
新墨西哥
以色列
成都
大连
英特尔全球总部
加利福尼亚
晶圆厂
资料来源:英特尔公告,方正证券研究所整理
封测
越南
英特尔全球势力范围
50. CPU的供给—台积电
台积电公司目前在中国台湾本土拥有四座十二寸超大晶圆厂、四座八寸晶圆厂和一座六寸晶圆厂,并拥有
海外子公司:台积电(南京)、WaferTech美国子公司、台积电(中国)。其中台积电(中国)和
WaferTech美国子公司均设有1座8寸晶圆厂。其中于2016年成立的台积电(南京)有限公司,下设有一座
12寸晶圆厂以及一个设计服务中心。
2020年,台积电规划生产1200-1300万片的12寸晶圆产能,其中先进制程所占收入达到60%。桌面/服务
器CPU、手机CPU、汽车CPU、智能穿戴CPU、电视/音乐CPU分别归属于下图的HPC、Smartphone、
Automotive、IOT、DCE。
受疫情影响,导致自动驾驶、消费电子设备需求的下滑,台积电28纳米、40/45纳米的产能利用率有所下
滑,5纳米制程的产能利用率保持在85%-90%之间。
2020 Q3 台积电收入的制程划分
资料来源:台积电公告,方正证券研究所整理
2020 Q3 台积电收入的平台划分
51. 目录
一、CPU投资逻辑框架
二、详解CPU:IC产业中的“珠穆朗玛峰”
三、知己知彼:CPU的全球格局与行业龙头
服务器CPU全球市场格局:霸主英特尔,追赶者AMD
英特尔:七大系列产品全覆盖
AMD:持续发力的追赶者
苹果:M1芯片横空出世
四、国产CPU自主之路:详解六大国产CPU
52. 服务器CPU全球市场格局:霸主英特尔,追赶者AMD
IDC发布了有关2020年第三季度服务器市场的报告,该报告显示AMD和ARM在过去12个月中所占份额
均在增长。该季度的总收入为$22.6B,同比增长2.2%,较二季度20%的同比增长率有明显下降。原因
在于疫情爆发初期,各公司为了避免数据中心的短缺而大幅增加采购,这使得第二季度服务器销量大增
,但也透支了随后两个季度的增长潜力。
搭载AMDCPU的服务器全球收入同比增长112.4%,由于基于ARM的服务器的基数很小,同比增长
430.5%。根据Mercury Research的数据,英特尔仍然占据着服务器市场的大部分份额,估计占据了
95.5%的市场份额,但AMD在这一领域正在逐步发展。
得益于第二代Epyc处理器“罗马”,AMD的服务器CPU市占率在短短两年内从1%增长到了8%。随着
AMD发布第三代Epyc处理器“米兰”,其服务器市场份额有望达到15%。由于AMD服务器芯片的较高
性价比及台积电7纳米制程技术的加成,越来越多的数据中心开始采购AMD的产品。
AMD各产品市场份额
AMD第三代Epyc处理器“米兰”
AMD市占率 20Q3 季度增长率 年度增长率
X86架构总体
市场 22.4% +4.1% +6.3%
台式机市场 20.1% +0.9% +2.1%
笔记本市场 20.2% +0.3% +5.5%
服务器市场 20.2% +0.5% +4.3%
资料来源:IDC,Mercury Research,Wccftech,方正证券研究所整理
53. 英特尔cpu产品线概览
英特尔处理器(Intel CPU)是英特尔公司开发的中央处理器,截至目前共有7个系列,具体如下:
酷睿(Core)系列:桌面cpu,面向中高端消费者、工作站和发烧级别处理器品牌,可用于管理3D、高
级视频和照片编辑,玩复杂游戏,享受高分辨率4K显示。
奔腾(PenTIum)系列:入门级桌面cpu,借助功能丰富的处理器,加快便携式2合1电脑、笔记本电脑
、台式机和一体机的速度。
赛扬(Celeron)系列:面向低端pc,借助可靠的性能和高性价比,支持基本的消费者应用程序、高清视
频和音频以及网页浏览。
至强(Xeon)系列:面向企业服务器和工作站。
安腾(Itanium)系列:针对企业服务器、UNIX小型机,面向高端市场,现已停止开发。
凌动(Atom)系列:面向移动设备、嵌入式设备,如:手机、平板、上网本和工控设备等,在小型封装
中获得强大的性能和超长电池续航时间。
Quark系列:主要应用于智能穿戴和物联网(IoT)设备。在小巧外形中获得低功耗、集成的安全性和可
扩展架构。
第十代酷睿
至强系列
奔腾
赛扬
凌动
资料来源:英特尔官网,方正证券研究所整理
54. 英特尔酷睿系列最新进展
工艺方面,由于英特尔10nm工艺依旧表现不佳,因此第十代酷睿桌面系列处理器仍然使用14nm++工
艺。不仅如此,虽然新的处理器核心代号更换为 Comet Lake-S,但微架构依旧采用了小改版本的
Skylake,并没有根本性的变化。尽管如此,该系列处理器依旧得到了部分市场和玩家的青睐。其主要原
因就是英特尔显著提升了新处理器的核心数量和核心频率,性能更为出色。
核心数量方面,第十代酷睿桌面系列处理器最多可拥有10颗核心和20条线程(之前最多为8核心16线程
);频率方面,新的处理器的最高频率达到了史无前例的5.3GHz,更高的频率带来了处理器更强的综合
表现、单线程性能和游戏性能。而在多核心满载频率上,英特尔新处理器的全核心满载频率能稳定工作在
5.0GHz甚至更高。由于核心数量增加、频率提升,因此第十代酷睿桌面系列处理器的顶级产品酷睿i9-
10900K整体性能相比前代酷睿i9-9900K系列有显著进步。当然,频率的提升对散热器的散热能力带来了
严峻的挑战,为这款处理器配备顶级风冷甚至水冷散热器甚至成为了必要选项。
除了顶级产品外,第十代酷睿桌面系列处理器另一大优势在于放开了超线程技术和睿频技术的普及范围。
在第十代产品上,英特尔为全系列第十代酷睿桌面系列处理器同时加入了超线程和睿频技术,这对于酷睿
i3这类入门级产品来说意义巨大。
第十代酷睿i9参数展示
资料来源:电脑报,方正证券研究所整理
众多软件针对第十代酷睿深度优化
55. AMD:高端桌面cpu优势明显
近年来,AMD几乎已成为高端台式CPU的代名词,2020年11月发布的锐龙5000桌面系列处理器开售
后不过几分钟便全数售罄,火热程度可见一斑。
AMD锐龙5000系列桌面处理器采用的是ZEN 3架构,全新设计的单CCX结构内置了8个物理核心,可
直接访问32MB L3缓存设计,相比之前的CCD结构巨幅降低了数据传输的延迟,使得IPC暴增19%,高
频内存支持度也得到了强化。综合这些因素,锐龙5000最大的升级爆点就是游戏性能。其中,AMD锐
龙9 5900X甚至被AMD称为“全球最佳游戏处理器”。
Zen 3相比Zen 2的提升主要如下:最高4.9GHz Boost频率;19% IPC提升;全新的8核心CCX;全新
的32MB L3缓存拓扑。相较于上一代ZEN2架构处理器而言,ZEN3的三级缓存访问速度高达ZEN2的两
倍,同时,ZEN3架构的IPC大增19%,内存延迟方面也得到了升级。能效方面,AMD称Zen 3架构对
比初代Zen架构提升达到了2.4倍,而对比竞争对手英特尔的旗舰酷睿i9-10900则达到了2.8倍。
Zen 2与Zen 3架构对比图
资料来源:CSDN,wccftech,方正证券研究所整理
锐龙 9 5900X参数
56. AMD:笔记本cpu持续增长
在 2020 年 的 CES2020 上 , AMD 发 布 了 多 款 新 品 , 进 一 步 向 笔 记 本 市 场 发 起 攻 势 。
新品中包括基于全新的7nm工艺打造,采用了Zen 2CPU架构与Vega GPU架构的锐龙4000系列移动处
理器。
在具体应用领域上,H系列主打性能面向游戏本,U系列主打能效面向轻薄本,Pro系列则面向专业笔记
本领域。其中,U系列一共带来了五个型号,分别为锐龙7 4800U、锐龙7 4700U、锐龙5 4600U、锐龙
5 4500U、锐龙3 4300U;H系列则拥有两款型号,分别为锐龙7 4800H、锐龙5 4600H。与英特尔的
i7-1065G7相比,锐龙7 4800U的CPU单核领先4%,多核领先90%,内容创作领先49%,GPU图形也
领先了28%。与AMD自己旗下上代产品相比,提升也十分显著。能效可达上代的2倍,功耗最多降低20
%。
FAD 2020分析师大会上,AMD官方宣布了7nmZen 3架构、5nmZen 4架构,同时提到锐龙处理器
2017-2019年累计出货量9700万颗,这三年分别为2300万颗、3100万颗、4300万颗,2018年、
2019年的增长率分别达35%、39%。AMD还宣布了RDNA2、CDNA两种GPU架构,其中RDNA2面向
游戏领域,CDNA面向计算领域。
AMD锐龙4000系列
资料来源:AMD官网,方正证券研究所整理
AMD Ryzen™ 9 4900H
CPU核心数量:8 线程数量:16 GPU核心数量:8
基准时钟频率:
3.3GHz 最大加速时钟频
率:最高可达
4.4GHz 二级缓存总计:
4MB
三级缓存:8MB 不锁频:否 CMOS:TSMC
7nm FinFET
封装:FP6 PCI Express 版
本:
PCIe® 3.0 默认 TDP/TDP
35-54W
57. AMD:争夺服务器市场,Epyc处理器来势汹汹
传统上,服务器市场一直为Intel所垄断,不过AMD显然不满于现状,他们近年来开发了性能卓越的Epyc
处理器投入服务器市场竞争且取得了一定成效。
AMD Infinity是一种混合多芯片架构,此架构在AMD EPYC(霄龙)7002系列处理器中的应用达到了新
的高度。AMD Infinity架构划分为两大部分:八个晶片作为处理器核心,一个 I/O 晶片负责处理器安全和
外部通信。这种灵活的设计不仅使CPU核心得以采用先进的制程工艺,同时让I/O电路能够按自身规律发
展,也正是由于这种非一体化的芯片设计,用户可以借助EPYC(霄龙)更快地将新产品推向市场。
AMD率先推出基于7nm技术的x86处理器。双倍核心密度加上针对提升周期指令数进行的优化,7nm制程
工艺也带来了更高能效。AMD已确定基于Zen4的EPYC处理器代号为“Genoa(热那亚)”,而Zen 4将基于
5nm工艺。
借助AMD Infinity Guard,AMD EPYC(霄龙)处理器可以从硬件层面带来安全保障,保护数据的机密性
和完整性,并提供安全内存加密和安全加密虚拟化功能,为安全保驾护航。
AMD infinity架构
Epyc系列产品参数
型号 核数/线
程 TDP
(W) 基础频率
/最高加
速频率 总三级缓
存 每核心三
级缓存
7F32 8/16 180W 3.7GHz/
3.9GHz 128MB 16MB
7F52 16/32 240W 256MB 16MB
7F72 24/48 240W 192MB 8MB
3.5GHz/
3.9GHz
3.2GHz/
3.7GHz
资料来源:AMD中国,方正证券研究所整理
58. 苹果:M1芯片横空出世,Arm架构重大突破
2020年11月10日苹果发布了基于ARM指令集的M1芯片。M1芯片的发布标志着苹果继2005年放弃
IBM的PowerPC指令集转向Intel的X86指令集后的又一大PC领域转换,这是36年来苹果Mac电脑首次
使用自研CPU芯片,也是苹果贯彻Apple Silicon中Mac阶段的产物。在这之前,Mac是唯一不在苹果自
家芯片上运行的产品,而iPhone,iPad,Apple Watch和Apple TV均已在苹果自研芯片上运行。
在处理器性能方面,ARM与X86的进步速度相差悬殊,ARM正在以惊人的速度追上X86处理器。在过去
的5年里,英特尔成功地将它们最好的X86处理器的单线程性能提升了28%左右,而苹果则将他们的单线
程性能提升了198%,也就是2015年底苹果A9性能的2.98倍。苹果在2020年11月10日的发布会中也表示
其自研的桌面级M1处理器是足够快的(官方声称拥有世界上最快的CPU核心),已经快到了超越同行。
苹果并没有选择增加通用CPU核心,采取了另一种策略:添加越来越多专用芯片来完成一些专门的任务
。这样做的好处是,与通用CPU核心相比,专用芯片能够更快地完成任务,而且耗电量更少。
M1芯片异构运算原理
资料来源:半导体行业观察,CSDN,方正证券研究所整理
M1芯片裸片(die)
59. 目录
一、CPU投资逻辑框架
二、详解CPU:IC产业中的“珠穆朗玛峰”
三、知己知彼:CPU的全球格局与行业龙头
四、国产CPU自主之路:详解六大国产CPU
国产CPU的发展历程:再度起航
CPU国产化分析:严重依赖进口
详解六大国产CPU:国产CPU第一梯队
国产CPU其他标的
60. 国产CPU的坎坷发展
国产CPU一路走来,坎坷不断。成立之初虽然与国际水平相差不大,但随着英特尔4004问世,
CPU进入商用阶段,第四代计算机系统(基于超大规模集成电路)正式拉开了中国与国际先进
水平的差距,且由于政策支持力度有所减弱等原因,国产CPU自主研发进入停滞状态。
国产CPU的飞腾之路:十五期间,国家启动发展国产CPU的泰山计划,863计划也提出自主研
发CPU。,2006年核高基专项启动,国产CPU领域迎来了新一轮的国家支持。微弱的产业火种
诞生出了鲲鹏、飞腾、龙芯、兆芯、海光、申威等一批优质企业,国产CPU再度启航。
国产CPU发展历程
资料来源:半导体行业观察,方正证券研究所整理
61. 国产CPU进口替代的紧迫性
中国CPU市场规模和潜力非常大,庞大的整机制造能力意味着巨量的CPU采购。虽然近些年,计算机整机
和智能手机产量增长都出现瓶颈,但由于这两类产品体量庞大,2019年国内智能手机出货量为3.72亿部
,电子计算机整机年产量达到3.56亿台,CPU的需求量大且单品价值非常高,市场规模依然非常可观。
同时,服务器CPU伴随着整机出货的快速成长,需求量增长也较为迅速。据统计,2018年国内服务器出
货量达到330.4万台,同比增长26%,其中互联网、电信、金融和服务业等行业的出货量增速也均超过
20%。另外,国内在物联网、车联网、人工智能等新兴计算领域,对CPU也存在海量的需求。
据统计,近年来中国集成电路自给率不断提升,2018年为13%,预计2020年有望提升至15%,但仍然
处于较低水平。根据国务院印发的《新时期促进集成电路产业和软件产业高质量发展的若干政策》,中国
芯片自给率要在2025年达到70%,这将产生8000亿元的国产芯片需求。中国芯片产业发展空间非常大。
2019年中国大陆集成电路进口额结构
资料来源:芯知汇,华经情报网,方正证券研究所整理
2012-2020年中国大陆集成电路自给率
62. 六大国产CPU公司一览
龙芯 鲲鹏 飞腾 海光 兆芯 申威
合作方/资方 中科院研究所 华为 天津飞腾/CEC AMD/中科曙光 VIA/上海国资委 江南计算所/CETC
指令集体系 LongISA
2.0+MIPS ARMv8 ARMv8 X86(AMD) X86(VIA) ALPHA,SW-64
架构来源 指令集授权+自研 指令集授权 指令集授权 IP授权 IP授权 指令集授权+自研
代表产品 龙芯1/龙芯2/龙芯
3 鲲鹏920 腾云S系列、腾锐D
系列、腾珑E系列 海光1号、2号、3
号、4号 ZX-C、ZX-D、
KX-5000、KX-
6000、KH-
20000 申威SW1600、
SW1610、
SW26010
产品覆盖领
域 桌面、服务器 服务器、桌面、嵌
入式 服务器、桌面、嵌入
式 服务器 服务器、桌面、嵌
入式 服务器、桌面
应用市场 党政市场 党政+商用市场 党政+商用市场 党政+商用 党政+商用 军方+党政
厂商
台式机:曙光、联
想、方正、同方等
服务器:云海麒麟、
五舟科技、清华同
服务器:华为
方、长城等
笔记本:方正、同
方、山东超越、北
京计算机研究所等
台式机:长城
笔记本:长城
服务器:清华同方、
浪潮、联想、长城等 服务器:中科曙光
台式机:联想、同
服务器:
方
ZoomServer、云
笔记本:联想
海麒麟、联想、方
服务器:云海麒麟、
正、宝德等
火星舱、联想、秉
笔记本:方正等
时
实际应用 玲珑、逸珑、福珑、
北斗导航卫星 华为服务器 天河一号、天河二号、
天河三号 国家级超算项目 笔记本、服务器、
火星舱存储系统 神威蓝光、神威-
太湖之光
代工厂 意法半导体 台积电 台积电 格罗方德、三星 台积电 中芯国际
最小制程 28nm 7nm 16nm 14nm 16nm 28nm
资料来源:华经情报网,智东西,方正证券研究所整理
63. 飞腾:Arm芯片架构的国产CPU领军者
天津飞腾信息技术有限公司是国产自主安全主力芯片厂商。目前,中国长城科技集团股份有限公司作为天
津飞腾的第一大股东,天津先进技术研究院作为最终受益人。
2006年,飞腾团队成功研制出两代国产CPU,分别基于X86和IA-64指令集,在关键领域实现了规模化应
用。“十一五”期间,第三代飞腾CPU走向了商业化应用。第三代飞腾使用的是可扩充处理器架构(
SPARC),但生态系统的羸弱无法支撑起大规模商用。直到第四代飞腾2014年问世后,即兼容ARM指
令集研发的FT-1500A系列CPU,飞腾才正式进入跨域式发展。
飞腾处理器历史
资料来源:飞腾S2500发布会,方正证券研究所整理
64. 飞腾产品分布图
通过20年技术积累,飞腾已经形成完整的多样化算力产品谱系,是国内通用CPU里面谱系非
常全的CPU厂家。包括高性能服务器CPU、高效能桌面CPU、高端嵌入式CPU,能为从端到
云的各类设备提供核心算力支撑。目前,主推产品是面向服务器的S2500、FT 2000+/64,
面向桌面终端的FT2000/4和面向嵌入式的FT2000A/2。
飞腾产品分布图
资料来源:飞腾从端到云全栈解决方案白皮书,方正证券研究所整理
65. 飞腾产品性能对比
2011年后,飞腾专注于ARM芯片研发,是中
国最早获得ARMv8指令集架构授权的芯片设
计厂商之一,主要致力于国产高性能、低功耗
集成电路芯片的设计与服务,产品广泛应用于
计算机终端与服务器。
目前,国内完全自主设计的芯片厂商仅飞腾、
龙芯、海光、兆芯和申威等寥寥数家,飞腾在
CPU、JS引擎性能、HTML5兼容性等方面表
现将较于龙芯更好。飞腾桌面芯片FT-
2000A/4相较于上代飞腾FT-1500A/4,性能
提升1倍,功耗降低33%。
飞腾CPU性能横向对比
JavaScript引擎性能对比
HTML5兼容性对比
SunSpider
V1.0.2(分
值越高越好) V8基准套件
(分值越低
越好) FF(越接近
555越好) Chrome
(越接近
555越好)
FT-1500A
(1.8GHz) 5301.2 123 414 469
LS-3A2000
(1.0GHz) 1683.1 2270 466 462
飞腾、龙芯芯片SPEC2006CPU性能对比
飞腾CPU性能纵向对比
12
10
8
6
4
2
0
定点
飞腾 FT-1500A(1.8GHz)
资料来源:飞腾全栈解决方案白皮书,快科技,方正证券研究所整理
浮点
龙芯LS-3A2006(1.0GHz)
66. 飞腾高性能服务器CPU历程
飞腾在2014年发布了FT-1500A/16。FT-1500A/16
芯片集成16个飞腾自主研发的高能效处理器内核
FTC660,采用乱序四发射超标量流水线,芯片采用
片上并行系统(PSoC)体系结构,兼容64位ARMV8
指令集,支持硬件虚拟化。该产品适用于构建较高计
算能力和较高吞吐率的服务器产品(如办公业务系统
应用/事务处理器、数据库服务器、存储服务器、物
联网/云计算服务器等),支持商业和工业分级。
2017年飞腾发布的FT-2000+/64,它集成64个飞腾
自主研发的高能效处理器内核FTC662,采用乱序四
发射超标量流水线,芯片采用片上并行系统(PSoC
)体系结构,集成高效处理器核心、基于数据亲和的
大规模一致性存储结构、层次二维Mesh互联网络,
优化存储访问延时,提供业界领先的计算性能、访存
带宽和IO扩展能力。芯片兼容64位ARMV8指令集。
该产品适用于高性能、高吞吐率的服务器领域
2019年飞腾发布S2500处理器,集成64个自主研发
的ARMv8指令集兼容处理器内核FTC663,采用片上
并行系统(PSoC)体系结构。通过集成高效处理器
核心、基于数据亲和的大规模一致性存储架构、层次
式二维Mesh互连网络、多端口高速直连通路,优化
存储访问延时,提供业界领先的计算性能、访存带宽
和IO扩展能力。在ARMv8指令集兼容的现有产品中
,S2500在单核计算能力、单芯片并行性能、单芯片
cache一致性规模、访存带宽等指标上都处于国际先
进水平,S2500主要应用于高性能、高吞吐率服务器
领域。
飞腾高性能服务器CPU
飞腾新一代CPU腾云S2500参数
资料来源:飞腾S2500发布会,飞腾官网,方正证券研究所整理
67. 腾云S2500,乘风破浪
2020年7月23日,飞腾发布了腾云系列新一代可扩展多路服务器芯片腾云S2500,与FT
2000+相比性能大幅提升。
在整机性能方面,双路的SPECint分值为原来的2倍,四路的SPECint值为原来的3.5倍
在分布式数据库性能方面,双路服务器的tpmc值线性提升至原来的2倍,四路的tpmc值现
性提升至原来的4倍;
在云桌面支持方面,双路服务器支持虚拟机70个,是原来的2.5倍,四路服务器支持140个
,是原来的5倍。
腾云S2500性能提升
分布式数据
库性能
高性能
SPECint 1000+ (双路)
SPECint 1800+ (四路)
增长至原来的2倍(双
路)
增长至原来的3.5倍(四
路)
98000tpmc(双路)
176000tpmc(四路)
线性提升至原来的2倍
(双路)
线性提升至原来的4倍
(四路)
资料来源:飞腾S2500发布会,方正证券研究所整理
云桌面支
持数量
虚拟机70个(双路)
拟机140个(四路)
增长至原来的2.5倍(双
路)
增长至原来的5倍(四
路)
68. 飞腾—腾云S2500对行业的支撑
腾云S2500将依托高可扩展、高性
能、高安全、高可靠、高能效这五
大核心能力,大幅提升政务云和大
数据基础设施底座的算力,还使飞
腾平台逐步具备了对算力要求更高
的电信、金融等新基建核心行业核
心业务的支撑能力。
通过赋能云计算、大数据、边缘计
算、5G、AI、区块链等技术,腾云
S2500将在政务、数字城市、电信
、金融、能源、交通、工业制造等
众多行业获得广泛应用。
目前,飞腾已经与国内众多厂家开
展合作,携手合作伙伴构建繁荣开
放的生态,合作伙伴数量超过1000
家、累计研制了6大类900余种整机
产品,已经适配和正在适配的软件
和外设超过2400种。
飞腾作为生态系统全栈底层的芯片
供应商之一,已经建立起云端边和
嵌入式终端全栈解决方案图谱。
腾云S2500将在众多行业广泛应用
基于飞腾S2500平台的可信云全栈架构图
资料来源:飞腾S2500发布会,飞腾公众号,方正证券研究所整理
69. 飞腾高效能桌面CPU
腾锐D2000
2020发布的飞腾腾锐
D2000基于14nm工艺,
拥有8个FTC663内核,主
频2.3-2.6GHz,拥有
8MB二级缓存,4MB三
级缓存,TDP功耗25W,
支持DVFS。接口方面,
拥有2个DDR4/3200接口
,34lance PCIe 3.0接口
,最多6个Port;2个千兆
网接口;QSPI/HD
Audio/SPI等。
同时,飞腾腾锐D2000支
持PSPA1.0安全架构,内
置了
SM2/SM3/SM4/SM9国
密算法。
在封装方面,飞腾腾锐
D2000采用FCBGA封装
,管芯尺寸为
10.4mm×12.7mm,封
装尺寸为35mm×35mm
,拥有1144个引脚。
FT-2000/4
2020
2017
2019年量产的FT-2000/4,集成
4个飞腾自研FTC-663核,主频
2.6-3.0GHz,提供了丰富的接口
和安全机制,支持待机和休眠,
典型功耗仅10W,且可以通过“
减核”、“降频”等方式应用于
嵌入式系统,整体性能与Intel
Core i5系列芯片相当。
FT-1500/4
2014
资料来源:2020飞腾生态伙伴大会直播,飞腾官网,方正证券研究所整理
2014年量产的FT-1500A/4,集
成4个飞腾自研FTC-660核,主
频1.5-2.0GHz,典型功耗15W
,主要应用于办公业务系统桌面
终端,可以胜任日常办公、图形
图像处理、音视频处理等业务,
性能和体验与Intel Core i3系列
芯片相当。
70. 腾锐D2000,腾锐披坚,追风逐电
8核心的腾锐D2000与上一代的FT2000/4相比,在Steam测试中提升了6.8%;Spec2006 INT测试得
分为97.45,提升了76.8%;Spec2006 FP测试分值为94.62,提升了70.15%;Unixbench测试得分为
4396.2%,提升了55.1%。在几乎所有测试方面强于16核心的FT1500A/16。
腾云D2000纵向性能对比
资料来源:2020飞腾生态伙伴大会直播,方正证券研究所整理
71. 飞腾嵌入式CPU产品概述
飞腾通过20多年的技术积累
,芯片的设计领域和除了在
通用终端和服务器行业应用
方面不断突破之外,在嵌入
式方向的行业应用也不断拓
展,有力支撑着国家信息安
全和产业发展。
FT-2000 A/2
工作频率1.0GHz。
集成2个飞腾计算核心
FTC661,
1个DDR3控制器,
1个PCIE x8 PCIE2.0接口
,集成两个千兆以太网接
口
双核典型功耗8W,亦可支
持单核运行模式,
单核典型功耗5W。
FT-1500 A/4
工作频率1.5GHz。
集成4个飞腾计算核心
FTC660,
2个DDR3控制器,
2个PCIE x16 PCIE3.0接
口,每个x16可拆分两个
x8并独立控制,
集成1个千兆以太网接口
。最大功耗15W。
FT-2000 A/4
FT-2000/4是最新发布的
四核产品,比上一代产品
在性能及功耗方面都做了
很大的提升,扩展了产品
的应用场景。
在能源、轨交、电信、工
控、特殊领域的应用在逐
步落地。为了适应各行业
的需求FT-2000/4产品系
列分2种级别8个子版本。
资料来源:嵌入式领域基于飞腾平台的全栈解决方案白皮书,方正证券研究所整理
72. 飞腾嵌入式CPU的底层行业支撑
随着云计算和边缘计算的发展,嵌入式设备、边缘计算设备和云计算基础设施形成了一种典型的“
端-边-云协同”架构。
飞腾的嵌入式CPU在底层支持着从端到边缘端和云端
飞腾嵌入式设备在端边云中的定位
资料来源:嵌入式领域基于飞腾平台的全栈解决方案白皮书,方正证券研究所整理
73. 国内生态伙伴快速增长
在12月19日的飞腾生态伙伴大会上,飞腾公布了其目前国内生态伙伴的数量情况。与去年相
比,今年飞腾在国内的生态伙伴增长非常的大,比如OEM厂商就从去年的9家增加到了今年的
33家,ODM厂商有7家增加到了37家,嵌入式厂商由15家增加到了62家,网络通信和安全厂
商由10家增加到了26家,存储厂商由4家增加到了8家。
一年的时间,飞腾硬件生态的合作伙伴就增加了120多家。此外,新增整机设计410案,新增
软件兼容认证客户数也达到了157家。足见飞腾生态发展之迅猛。
飞腾国内生态伙伴
新增410家
62家
37家
33家
新增157家
26家
8家
9家
OEM厂商
15家
7家
ODM厂商
嵌入式厂商
10家
网络通信和安
全厂商
2019年合作伙伴数量
资料来源:2020飞腾生态伙伴大会,方正证券研究所整理
4家
存储厂商
新增整机设
计
2020年合作伙伴数量
新增软件兼
容认证客户
74. 飞腾业绩与产品创新
今年以来,飞腾对高性能服务器
CPU、高效能桌面CPU和高端嵌入
式CPU等三条产品线进行了全面品
牌升级。
高性能服务器CPU统一以飞腾腾云S
系列命名(为服务器和数据中心提
供强算力、高并发的计算服务)
高效能桌面CPU产品线统一以飞腾
腾锐D系列命名(打造高性能、高安
全的单用户极致体验)
高端嵌入式产品线统一以飞腾腾珑E
系列命名(提供定制化契合各行各
业嵌入式应用的解决方案)。腾龙
、腾锐、腾珑并驾齐驱,三线齐飞
。
2020上半年,公司业绩大幅增长,
公司已实现营收3.5亿元,超过19全
年营收,下半年将继续保持增长势
头,年底实现全年出货量100余万片
,营收10亿元目标。
根据飞腾公布的营收目标,计划到
2024年,公司营收将超过100亿元
。相比外界预期的飞腾今年10亿元
的营收,增长了10倍。足见飞腾对
于未来增长的信心。
飞腾产品线齐飞
飞腾2020营收
资料来源:快科技,飞腾S2500发布会,方正证券研究所整理
75. 2020年飞腾业绩总结及2021年展望
根据飞腾公布的数据显示,在CPU芯片出货量上,2020年飞腾芯片出货150万片,同比暴增650%。其中
,去年发布的桌面CPU飞腾FT-2000/4出货量突破百万片。在营收方面,2020年飞腾的营收达到了13亿
元,同比暴涨了519%。此外,飞腾的员工数量也从460人增加到了710人,研发投入也从2.6亿元增长到
了4亿元。
对于2021年的目标,飞腾公司总经理窦强表示,2021年飞腾的人员规模将由710人增至1200人,研发投
入将由4亿元增至7亿元,芯片出货量将突破200万片,全年营收将超过20亿元。
公司规模,研发,营收高速增长
7.0亿
20亿+
200+万片
1200人
4.0亿
710人
460人
13亿
150万片
2.6亿
2.1亿
20万片
人员规模
芯片交付
研发投入
2019
2020
资料来源:2020飞腾生态伙伴大会,方正证券研究所整理
2021
全年营收
76. 飞腾未来产品规划
飞腾计划在未来2年对现有的腾云S系列、腾锐D系列、腾珑E系列进行全面的升级。
在高性能服务器方面,下一代腾云S5000系列会升级到7nm工艺,2021年第三季度发布。2022年
则会有5nm的腾云S6000系列,整体性能翻一番。在高效能桌面方面,今年末会有14nm的腾锐
D2000,明年底则会有腾锐D3000系列,单核性能提升一倍。嵌入式腾珑E系列明年年中会有全新
的14nm工艺的产品,2022Q3腾珑E3000将集成丰富I/O接口,支持PSPA 2.0架构。
飞腾技术创新与产品规划
资料来源:飞腾S2500发布会,方正证券研究所整理
77. 鲲鹏:获得ARMv8永久授权,自主能力较强
华为芯片基于ARM架构,研发五大芯片族,实现全场景布局。华为自研芯片产品主要包括服务器芯片鲲
鹏系列、手机SOC芯片麒麟系列、人工智能芯片昇腾系列、5G基站芯片天罡系列、5G终端芯片巴龙系
列等,以及一系列专用芯片,如凌霄芯片、NB IoT芯片、视频编码解码芯片以及SSD控制芯片等。
在不断加剧的国际封锁和美国实体清单的负面影响下,鲲鹏的发展蒙上了一层不确定性。
华为芯片全景图
5G基站芯片:
手机SOC芯片
(麒麟)
服务器芯片
(鲲鹏)
资料来源:观风闻,方正证券研究所整理
人工智能芯片
(昇腾)
(天罡)
5G终端芯:
(巴龙)
其他专用芯片:
凌霄芯片
NB-Lot芯片
视频编码解码芯片
SSD控制芯片
78. 鲲鹏发展历程
鲲鹏处理器基于ARMv8指令集永久授权,自主研发设计处理器内核,兼容全球ARM生态,
并围绕鲲鹏处理器打造了“算、存、传、管、智”五个子系统的芯片族,实现全场景处理器
布局。
华为从2004年开始投资研发第一颗嵌入式处理芯片,历经16年,累计投入超过2万名工程师
,形成了目前以“鲲鹏+昇腾”为核心的基础芯片族。
鲲鹏产品发展路线图
资料来源:鲲鹏计算产业发展白皮书,方正证券研究所整理
79. 鲲鹏计算产业
科技发展水平决定了一个国家的数字化程度和全球市场地位。中国政府相继出台了《国家信息化发展战
略纲要》、《“十三五”国家信息化规划》、《中国制造2025》等重大战略纲领。据IDC预测,到2023
年数字经济产值将占到中国GDP的67%,超过全球平均水平。
不同的产业阶段对IT基础架构和计算能力提出不同的挑战和要求。新应用、新技术、新架构是未来数字
化转型的关键,计算平台创新是数字化转型的基础。鲲鹏计算产业由此孕育而生。
鲲鹏计算产业是基于鲲鹏处理器构建的全栈IT基础设施、行业应用及服务。包括PC、服务器、存储、操
作系统、中间件、虚拟化、云服务、行业应用以及咨询管理服务等。
作为鲲鹏计算产业底座的鲲鹏处理器,华为持续重点投入以满足市场对于新算力的需求。未来,鲲鹏
920Lite、鲲鹏930及 鲲鹏930s、鲲鹏930Lite将满足不同应用的算力需求。
鲲鹏计算产业定位
鲲鹏计算产业
端—云同构 绿色节能 高并发
互联网 √ √ √
电信 √ √ √
政府 √ √ √
制造业 √ √ √
交通 √ √ √
金融 √ √ √
医疗 / √ √
资料来源:鲲鹏计算产业发展白皮书,方正证券研究所整理
80. 鲲鹏计算产业发展蓝图
试点阶段:通过在政务、电信、金融和互联网等行业选取典型场景进行产业使能、孵化和
试点,通过试点建立产业界上下游厂家和用户的信心。
推广阶段:面向政务、电信、互联网、广电、金融证券、电力、能源、交通等行业全面打
通产业体系,为行业数字化业务创新提供基础。
深化阶段:面向全行业,全场景,打通产业链,构筑基于鲲鹏处理器的产业体系。
鲲鹏计算产业发展规划
资料来源:鲲鹏计算产业发展白皮书,方正证券研究所整理
81. 国产最早7纳米ARM服务器:鲲鹏920处理器
2019年,华为发布了最新的鲲鹏920处理器,该芯片支持ARMv8.2指令集,“业内性能最高”,行业内首款
7nm数据中心ARM处理器,专为大数据处理以及分布式存储等应用而设计。
鲲鹏920由华为自主研发设计,采用多发射、乱序执行、优化分支预测等多种手段提升单核的性能。鲲鹏920拥
有64个内核,集成8通道DDR4,可以提供多个接口,主频可达2.6GHz,总内存带宽最高可达1.5Tb/s,支持
PCIe 4.0及CCIX接口,总带宽640Gbps。华为Cache一致性总线(HCCS)的480Gbps片间互联支持最多四颗鲲
鹏920互联和最高256个物理核的NUMA架构,保证了鲲鹏920超强算力的高效输出。此外,在Memory子系统
上也进行了大量的优化,采用当前典型的3级Cache的架构,对Cache大小以及延时进行了优化设计。
鲲鹏920参数
鲲鹏920片间互联
组件 规格
计算核 兼容Armv8.2架构,华为自研核主频最高3.0GHz,单处理
器最高可集成64核
缓存 L1:64 KB instruction cache and 64 KB data cache
L2:512 KB private per core
L3:24–64 MB shared for all(1 MB / core)
内存 8 DDR4 channels per socket, up to 3200 MHz
互联 华为HCCS互联协议,支持最高4路互联
I/O 40 PCIe Gen 4.0 lanes
2 x 100GE, RoCEv2/RoCEv1, CCIX
x4 USB 3.0, x16 SAS 3.0, x2 SATA 3.0
封装 60 mm * 75mm, BGA
功耗 TDP:100-200 W
资料来源:鲲鹏官网,方正证券研究所整理
82. 鲲鹏920处理器性能
鲲鹏920面向数据中心,主打低功耗强性能,性能达到业界领先水平,尤其是整型计算能力,单处理器整
型计算性能,相比上一代提升2.9倍,业界标准SPECint Benchmark评分超过930,超出业界标杆25%同
时能效优于业界标杆30%。
鲲鹏920已经针对大数据、分布式存储、数据库及云服务等场景进行了优化,通过软硬件协同进一步提升
处理器的性能。
鲲鹏920ARM处理器业内最强性能
高性能
高吞吐
高整合
高效能
资料来源:CNX-Software,方正证券研究所整理
83. 鲲鹏920处理器性能对比
鲲鹏920芯片算力维度方面在非X86架构芯片中明显领先,且发展至目前已经达到可以与X86芯片相匹配
的性能。
目前从整体性能上看,鲲鹏920与芯片龙头Intel公司所生产的芯片相比较而言,48核的鲲鹏920与Intel
至强8180性能相当,但鲲鹏920能耗比对方低20%,而64核的鲲鹏920测试性能要优于Intel至强8180
33%左右。这证明ARM架构已经在特定领域具备赶超X86架构性能的能力。
鲲鹏920与其他服务器芯片对比
企业
处理器产
品
架构 主要性能指标
7nm工艺;64核;主频可达2.6GHz;
集成8通道DDR4,总内存带宽到达
1.5Tb/s;支持PCIe4.0及CCIX接口,可
提供640Gbps总带宽;集成100G RoCE
以太网卡功能,网络带宽达到100Gbps
华为 鲲鹏920 ARM V8 高通 Centriq
2460 ARM V8 英特尔 Xeon
Platinum
8180 X86 亚马逊 Graviton ARM V8 64核;主频2.3GHz
飞腾 FT-2000+ ARM V8 16nm工艺;64核;主频2.0-2.4GHz;
最高支持256GB的八通道DDR4内存
ARM V8 10nm工艺;48核/48线程;最高主频
2.6GHz;60MB三级缓存;支持最高
768GB六通道DDR4内存;支持PCIe3.0;
热设计功耗最高低于120w
华芯通
昇龙4800
10nm工艺;多达48核/48线程;60MB
三级缓存;2.2GHz可加速至2.6GHz;
热设计功耗最高120w
14nm工艺;28核/56线程;主频2.5-
3.8GHz;38.5MB三级缓存;最高支持
768GB的6通道DDR4内存;支持
PCIe3.0;热设计功耗最高205w
资料来源:各公司官网,区块网,方正证券研究所整理
鲲鹏920 SPECINT 2006横向对比
84. 龙芯与中科院计算机所
中科院计算所于2001年成立龙芯课题组,开始研制龙芯系列处理器,得到了中科院、863、973、核高基等项目
大力支持,完成了十年的核心技术积累。2010年4月,中国科学院和北京市共同牵头出资入股,成立龙芯中科技
术有限公司,龙芯正式从研发走向产业化。
龙芯中科致力于龙芯系列CPU设计、生产、销售和服务。龙芯CPU采用MIPS指令集,主要产品包括面向行业应
用的“龙芯1号”小CPU、面向工控和终端类应用的“龙芯2号”中CPU、以及面向桌面与服务器类应用的“龙芯
3号”大CPU,此外还包括龙芯7A1000桥片。
目前,龙芯面向网络安全、办公与信息化、工控及物联网等领域与合作伙伴展开广泛的市场合作,并在政府、能
源、金融、交通、教育等行业领域取得了广泛应用。
龙芯系列芯片产品线概述
龙芯3号:
电脑类
龙芯2号:
终端/工控
类
龙芯1号:
专用类
资料来源:龙芯芯片产品技术白皮书,方正证券研究所整理
85. 龙芯中科发展历程概述
龙芯是中国科学院计算所自主研发的通用CPU,采用自主LoongISA指令系统,兼容MIPS指令,所有IP模块都是自主设
计,拥有片内安全机制,可信性高。龙芯处理器以32位核64位单核及多核CPU/SOC为主,主要面向高端嵌入式、个人电
脑、服务器和高性能机等应用。
2002年8月10日诞生的“龙芯一号”是我国首枚拥有自主知识产权的通用高性能微处理芯片。
龙芯从2001年至今共开发了1号、2号、3号三个系列处理器和龙芯桥片系列,在政企、安全、金融、能源等应用场景得到
了广泛的应用。
龙芯中科发展历程
2002年8月
2015年11月
2019年
办公信息化应用全面展
我国首款通用CPU龙芯 龙芯第二代高性能处理器
1号(代号X1A50)流 产品龙芯3A2000/3B2000 开,第三代处理器产品
实现量产并推广应用。
3A4000/3B4000成功推出
片成功
龙芯中科
十余年核心技术积
累,基本完全自主
可控
2001年5月
在中科院计算所知识
创新工程的支持下,
龙芯课题组正式成立
2010年4月
由中国科学院和北京市
共同牵头出资入股,成
立龙芯中科技术有限公
司,龙芯正式从研发走
向产业化。
资料来源:龙芯官网,方正证券研究所整理
2017年4月
龙芯最新处理器产品龙
芯3A3000/3B3000实
现量产并推广应用。
86. 龙芯CPU详解
龙芯CPU的发展历程:市场上经过三轮试错,从基本上可用发展到可用,再发展到好用。
第一轮:2010年-2014年,主要面向工控系统和简单应用,做了很多工控类设备;
第二轮:2014年-2018年,主要面向电子政务系统,十万台规模的信息系统,终端、数据库服务器、应用服务器连在一起形
成一个信息平台,这轮试错之后龙芯做到了可用;
第三轮:2019年-2022年,这轮试错结束之后,龙芯就能做到好用,2020年基本上会达到这个水平,用户体验将与使用英
特尔差不多,龙芯就可以走向国际开放市场了。
对于龙芯来说,大环境下的历史机遇是外因,龙芯的能力是内因,外因永远是通过内因起作用的。中国现在发展自主的信息
产业体系,自己的能力和积累就是内因。2020年,龙芯将完成技术补课,在2022年,重心将开始慢慢转到开放市场。
龙芯主要CPU详解
产品 首批芯片发布时间 主频 核数 研发定位 工艺 功耗
龙芯1A 2010Q2 0.3GHz 单核32位 低端嵌入式和专用应用领域 130nm 1.0W
龙芯1B 2010Q2 0.266GHz 单核32位 低端嵌入式和专用应用领域 130nm 0.5W
龙芯1C 2013Q1 0.3GHz GS232处理器核心 工业控制及物联网等领域 130nm 0.5W
龙芯1D 2014 0.008GHz GS132处理器核心 130nm 30uw
龙芯2F 2008Q3 0.8GHz 单核64位 90nm 5w
龙芯2H 2012Q4 1GHz 单核64位 65nm 5w
龙芯3A1000 2009Q4 1GHz 四核64位 桌面、服务器、工业控制等领域 65nm 龙芯3B1500 2012Q2 1.2GHz 八核64位 服务器、桌面计算机、数字信号处理
等领域 32nm 2015Q1 0.8-1GHz 四核64位 桌面和服务器等领域 40nm 15w
2016Q2 1.5GHz 四核64位 桌面和服务器等领域 28nm 30w
龙芯
3A4000/3B4000 2019Q4 1.8-2GHz 四核64位 桌面和服务器等领域 28nm 龙芯
3A5000/3C5000 预计2020年底 2.5GHz 3A四核64位、3C
16核64位 <30w 1.5GHz、
<40w 1.8GHz、
<50w 2.0GHz
桌面和服务器等领域 12nm /
龙芯
3A2000/3B2000
龙芯
3A3000/3B3000
资料来源:龙芯官网,方正证券研究所整理
超声波热表、水表和气表测量专用SoC
芯片
个人计算机、行业终端、工业控制、
数据采集、网络安全等领域
计算机、云终端、网络设备、消费类
电子等领域
15w(支持动态
降频)
30w(典型)
/60w(向量)
87. 最强龙芯:3A4000/3B4000详解
龙芯3A4000/3B4000是龙芯3号系列处
理器中首款基于GS464v微架构的四核处
理器。相比上一代GS464e微架构,进一
步优化流水线,提升运行频率,加强对虚
拟化、向量、加解密、安全机制等方面的
支持。操作系统应用程序与龙芯3A3000
实现二进制兼容。龙芯3A4000/3B4000
采用全新的FCBGA-1211封装,不再向前
兼容。龙芯3B4000支持多达八片结构的
多路一致性互连。
龙芯3A4000内核
资料来源:龙芯官网,方正证券研究所整理
龙芯3A4000参数
芯片 龙芯3A4000/3B4000
主频 1.8GHz–2.0GHz(商业级)
峰值运算速度 128GFlops@2.0GHz
核心个数 4
处理器核 64位超标量处理器核GS464v;
MIPS64兼容;
支持128/256位向量指令;
四发射乱序执行;
2个定点单元、2个向量单元和2个访存单元
高速缓存 64KB私有一级指令缓存、64KB私有一级数据缓存;
256KB私有二级缓存;
共享8MB三级缓存
内存控制器 2个72位DDR4-2400控制器,支持ECC校验
高速I/O 2个16位HyperTransport 3.0控制器;
支持多处理器数据一致性互连(CC-NUMA)
支持2/4/8路互连
其他I/O 1个SPI、1个UART、2个I2C、16个GPIO接口
制造工艺 28nm
封装 37.5mm*37.5mm FC-BGA封装
引脚数 1211
功耗管理 支持主要模块时钟动态关闭;
支持主要时钟动态变频;
支持主电压域动态调压
典型功耗 <30W@1.5GHz
<40W@1.8GHz
<50W@2.0GHz
88. 龙芯3号产品性能与桌面CPU对比
龙芯3A4000/3B4000相比
上一代四核处理器龙芯
3A3000,芯片整体实测性
能提升一倍左右。在某些项
目中,龙芯3A4000的速度
超过了3A3000的三倍,比
如hmmer测试,3A4000的
速度是3A3000的3.6倍,这
是因为龙芯3A4000的向量
指令在发挥作用。
与2017年主流的低功耗处
理器Intel i5 7200U处理器
相比,龙芯3A4000处理器
在绝对性能方面还存在相当
差距。龙芯3A4000处理器
单核整数性能只有i5 7200U
的60%,浮点性能只有后者
的50%,但考虑到Intel i5
7200U睿频频率高达
3.1GHz,处理器的每GHz
性能为整数10.64分,浮点
12.6分;3A 4000处理器核
的同主频性能已经能够达到
i5 7200U 处理器的80%-
90%。
龙芯整数性能横向对比
资料来源:Linux人,方正证券研究所整理
龙芯浮点性能横向对比
89. 龙芯3号服务器性能与服务器CPU对比
龙芯3B4000与其他品牌的国产处理器相比,在绝对性能方面也依然存在差距,在SPECint-rate中,龙
芯3B4000性能垫底。
据龙芯官方介绍,龙芯在研一代CPU对标国际主流产品,其中3A5000桌面CPU将采用12纳米制程工
艺,相比上一代3A4000性能提升50%,性能高于国内7纳米ARM处理器,3C5000服务器CPU也将采
用12纳米制程,最高频率可达2.5GHz。这些进化将带来显著的性能飞跃,缩小与主流水平的差距。
龙芯3B4000 SPECint 2006 性能横向对比
龙芯3号的未来进化
性能
12纳米
龙芯
3A5000
28纳米
50%
提升
龙芯
3A4000
2019
资料来源:今日头条,方正证券研究所
2021及以后
90. 海光与中科曙光
中科曙光信息产业股份有限公司成立于2006年7月,2011年3月30日正式改名为中科曙光。
中科曙光主要从事研究、开发、生产制造高性能计算机、通用服务器及存储产品,中科曙光
的实际控制人为中科院研究所,其产品主要市场在政府和公共事业类。
海光信息技术有限公司成立于2014年10月。2016年,AMD公司和海光信息合资成立了:
成都海光微电子技术有限公司和成都海光集成电路设计有限公司。
2018年11月26日,中科曙光分别与成都产投、成都高投签订了《产权交易合同》,取得海
光信息10.92%的股权,彰显了对海光的信任。本次股权成功转让后,中科曙光合计持有的
股权占海光信息股本总数的36.44%,进一步巩固了其在海光第一大股东的地位。
海光股权结构(2020.11.6)
曙光信息产业
天津海富天鼎
科技
成都产业投资
8.3%
海光信息技
术
资料来源:企查查,方正证券研究所整理
成都高新投资
其他
91. 海光X86指令集来源
2016年,AMD公司和海光信息合资成立了:成都海光微电子技术有限公司和成都海光集成电路设计有限
公司,授权海光微电子X86指令集和Zen架构,AMD获得2.93亿美元的授权费。海光集成电路购买海光
微电子的IP授权,以此为基础开发CPU,最终实现“ARM卖IP核”的翻版。
海光的X86指令与AMD的X86指令在吞吐量存在显著差异,这也造成在许多领域不如AMD的Ryzen。
海光集成电路与海光微电子的股权结构保证了公司在规避了英特尔的X86授权限制的同时,又使得海光
X86 CPU成为内资公司开发的产品,满足了国家产业政策和创新的需求。
成都海光微电子与成都海光集成电路持股结构
中科曙光
32.1%
海光信息技术
AMD
70%
49%
成都海光微电子
51%
30%
成都海光集成电路
资料来源:企查查,快科技,方正证券研究所整理
海光的X86指令集
92. 海光禅定处理器
2018年7月,海光信息宣布国产X86处理器
Dhyana(禅定)开始启动生产。这款芯片是根
据AMD Zen微架构开发的。AMD将X86的IP授
权给中国合作伙伴,而禅定正是合作的结果。
禅定处理器与AMD EPYC处理器很相似,二者只
是厂商ID与产品序列有所不同。事实上,Linux
维护者将EPYC支持代码转移到禅定处理器,发
现可以成功运行,由此说明两款处理器在“硬件
方面”差异不大,不过二者在X86指令集方面差
异巨大。
海光禅定由于其缺失DIV、SQRT等浮点指令集
,AES等加密指令集,AVX等单指令多数据流指
令集,以及大量简单指令集,如SSE被降速导致
海光处理器在许多应用领域方面完全无法与
AMD同期锐龙相比。
海光X86与AMD指令吞吐量对比
AnandTech AMD EPYC
Naples 海光禅定
ADD/SUB 2个每周期 1个每周期
CMP/MULP* 2个每周期 1个每周期
ADDSUBP* 2个每周期 1个每周期
RCP*/RSQRT* 1个每周期 0.5个每周期
BLENDW 3个每周期 2个每周期
PMIN/MAX* 3个每周期 2个每周期
PAND/ANDN/OR/XO
R 4个每周期 2个每周期
MOVs 4个每周期 2个每周期
海光禅定CPU的内核
海光禅定CPU的基本参数
禅定CPU 参数
主板 支持泰安S8026
内存 16个DDR4-2667
板载网卡 2个GE接口
硬盘 12个3.5英寸SAS/SATA硬盘
插槽 Lotes SP3
资料来源:超能网,ServeTheHome,快科技,方正证券研究所整理
93. 海光的优劣势和未来发展计划
海光的优势:从AMD处获得的X86指令集和Zen微架构,成为中国继上海兆芯目前第二家具备生产X86
指令集处理器的企业,使得海光拥有不错的产品性能和X86丰富的应用生态。
海光的劣势:海光的Zen微架构和X86指令集相较于同时期AMD的Ryzen处理器是不完整的,并且芯片
迭代依赖于AMD,美国实体清单对海光会有负面影响。
面对美国的技术限制,海光选择与国内企业加强合作来保证营业收入和净利润。2019年6月,中科曙光
与四川成都合作建立成都超算中心。
2020年5月10日,中国电信56314台服务器集采华为鲲鹏920芯片、海光Hygon Dhyana系列处理器的
H系列全国产化服务器,首次将全国产化服务器单独列入招标目录。
2020年7月1日,Intel停供服务器芯片,海光已开始向国内诸多服务器厂商供货。
2020年上半年海光公司营业收入为2.68亿元,净利润6078万元,净利润规模已经超过其2019年全年
6011.9万元,标志着海光CPU已经进入放量拐点。
海光CPU对比
公司 CPU CPUX CPUX(single) IPC(CPUX)
海光 C86 3185 X8 97295 12162 4054
海思 Hi1620 X8 73784 9223 3547.3
英特尔 I5 8250U 52532 13133 3862.6
资料来源:华为俱乐部,方正证券研究所整理
94. 申威的历程
申威处理器以Alpha指令集为基础进行拓展,高度自主可控。Alpha指令集由美国DEC公司研制,主要用
于64位的RISC微处理器。DEC公司之后被美国惠普收购,无锡江南计算所买下来Alpha指令集的所有设
计资料。江南计算所基于原来的Alpha指令集,开发出了更多的自主知识产权的指令集,研制了申威指令
系统,推出了申威处理器。申威处理器是在国家"核高基"重大专项支持下,由上海高性能集成电路中心研
制的全国产处理器。首颗申威处理器,代号“SW-1”,于2006年被研制成功,“SW-1“基于DEC公司
Alpha架构,130nm制程,主频900MHz。
成都申威科技有限责任公司成立于2016年11月25日,公司依托国家信息安全发展战略,主要从事对申威
处理器的产业化推广,核心业务包括申威处理器芯片内核、封装设计、技术支持服务及销售,小型超级
计算机研发、测试、销售、服务及核心部件生产,基于申威处理器的软件、中间件开发,嵌入式计算机
系统定制化产品服务,集成电路IP核等知识产权授权。
历代申威CPU
产品 发布时间 主频 核心数 工艺 研发定位
SW-1 2006年 0.9 GHz 单核 130nm 高性能计算
SW-2 2008年 1.4 GHz 2核 130nm 高性能计算
SW1600 2010年 1.6 GHz 16核 65nm 超级计算
SW1610 2012年 1.6 GHz 16核 40nm 服务器
SW410 2012年 1.6 GHz 4核 40nm 桌面和服务器
SW26010 2014年 1.45 GHz 260核 28nm 超级计算
SW111 、 1.0 GHz 单核 40nm 高密度计算型嵌入式应用
SW221 、 2.0 GHz 2核 28nm 高密度计算型嵌入式应用
SW411 2017年 1.6 GHz 2核/4核 40nm 桌面和服务器
SW421 2017年 2.0 GHz 4核 28nm 桌面和服务器
SW421M 2017年 2.0 GHz 2核/4核 28nm 中低端桌面
SW1621 2017年 2.0 GHz 16核 28nm 高性能计算和中高端服务器
资料来源:申威官网,方正证券研究所整理
95. 申威CPU性能
申威作为军方专供CPU厂商,军队大部分机密
设备均使用申威处理器,因此出于安全性能以
及知识产权角度,申威在研发出第一代基于
Alpha指令集的CPU后,将指令集替换为自研的
自主可控申威64位指令集,完全区别于原有
Alpha指令集。
申威处理器专注于高性能计算,尤其是在服务
器领域,浮点运算算力相比于同期外国处理器
毫不逊色。
申威SW26010是中国首个采用国产自研架构且
性能强大的计算机芯片。
申威26010参数
面向构建十亿亿次超级计算系统
自主知识产权的申威指令集(SW-64)
片上融合异构众核架构
集成4个运算控制核心和256个运算核心
核心根据需求扩展了256位向量指令集
申威26010性能对比
对比内容 AMD
GCN(HD 7970-
En) 英伟达
Kepler-GK110
(Tesla K20X) 英特尔
Xeon Phi
(5110P) 英特尔
Xeon Phi2 申威
SW26010
制造商 AMD NVIDIA Intel Intel NHP
处理器类型 GPU GPU 众核CPU 众核CPU 异构众核CPU
双精度峰值
(TFLOPS) 1.01 1.312 1.01 3 3.168
完成时间 2011.12 2012.05 2012.11 2015.11 2014.12
资料来源:申威官网,方正证券研究所整理
96. 神威太湖之光—40960颗申威SW-26210
申威在服务器领域向上至超算领域的应
用场景中性能强大,优势较为明显。
2016年6月20日,搭载了40960颗申威
SW26010以及运行国产操作系统神威
睿思的神威太湖之光获得全球超级计算
机第一名,并持续4年。
神威太湖之光峰值计算速度达每秒
12.54亿亿次,是全球首台峰值计算速
度超过十亿亿次的超级计算机,持续性
能为每秒9.3亿亿次,软件硬件并行,
均为申威自主设计。
神威太湖之光
资料来源:家核优居,chinastor,方正证券研究所整理
全球TOP5超算算力排名
处理器核心(万颗) 峰值算力(万TFlop/s)
日本Fugaku 763 44.20
美国Summit 241 14.86
美国Sierra 157 9.46
中国神威太湖
之光 1065 9.30
美国Selene 56 6.35
97. 兆芯简介
上海兆芯集成电路有限公司,简称“兆芯”,由上海联合投资有限公司(上海市国资委
完全出资)和中国台湾威盛电子共同成立,也是世界上第三家拥有X86授权的微处理器
公司,总部位于上海张江,在北京、西安、武汉、深圳等地设有研发中心和分支机构。
公司同时掌握CPU、GPU、芯片组三大核心技术,且具备三大核心芯片及相关IP设计与
研发的能力,致力于通过技术创新与兼容主流的发展路线,推动信息产业的整体发展,
并获评了“高新技术企业资质”。兆芯提供了桌面整机,服务器,工业主板,工业平台
,系统级解决方案,在党政办公,交通,金融,能源,教育,网络安全方面有着广泛的
应用。
上海兆芯股权结构
上海联合投资
兆芯的桌面案例
威盛电子
14.8%
85.2%
兆芯
资料来源:企查查,兆芯官网,方正证券研究所整理
兆芯的服务器案例
98. 兆芯产品历程和详解
兆芯的产品线涉及PC/嵌入式处理器开先系列、服务器处理器开胜系列和I/O拓展芯片。其中开先和开胜
系列已经从28纳米制程进化到了16纳米制程,主频和核心数均大幅提升。
兆芯产品结构和历程
产品型号
发布时间
工艺
内核数
定位
开先ZX-C 系
列 2015Q2 28nm 4 高性能运算
开先ZX-C+
系列 2016Q3 28nm 4 高性能运算
开先KX-
5000系列 2017Q4 28nm 4/8 通用SOC处理器
PC/嵌入式处
理器
服务器处理器
I/O扩展芯片、
芯片组
产品型号及主频
开先C4200/C4210(1.2
GHz)、开先C4400/C4420
(1.67GHz)、开先
C4600/C4610(2.0GHz)
开先ZX-C+ C4300/C4310
(1.2GHz)、开先ZX-C+
C4500/C4510(1.67GHz)、
开先ZX-C+ C4580
(1.83GHz)、开先ZX-C+
C4701/C4711 (2.0GHz)
开先KX-5510(1.8GHz)、开
先KX-U5580(1.8GHz)、开
先KX-U5680(2.0GHz)
其他特色
支持CPU虚拟化技术;独特安
全引擎提供基于硬件的运行数
据加密
支持CPU虚拟化技术,支持
SM3和SM4加密算法
支持双通道DDR4内存,最大
容量可支持64GB(国内首家)
开先KX-
6000系列 2019Q2 16nm 4/8 通用SOC处理器 开先KX-6640A(2.6GHz)、
开先KX-6640MA(2.2GHz)、
开先KX-U6880A(3.0GHz)、
开先KX-U6780(2.7GHz)、
开先KX-U6580(2.5GHz) 开胜ZX-C+
系列 2016Q2 28nm 8 高性能运算 开胜ZX-C+ FC-1080/FC1081
(2.0 GHz) 支持CPU虚拟化技术,支持
SM3与SM4加密算法
开胜KH-
20000系列 2017Q4 28nm 8 服务器通用X86 SOC处理器 开胜KH-26800(2.0GHz)、
开胜KH-25800(1.8GHz) 支持双通道DDR4内存,最大
容量可支持128GB(国内首家)
开胜KH-
30000系列 2019Q2 16nm 8 服务器通用SOC处理器 开胜KH-38800(3.0GHz)、
开胜KH-37800(2.7GHz) 同时支持SM3/SM4加密算法,
可提供基于硬件的数据加密保
护
ZX-100S 芯
片组 2016Q3 40nm \ 适用于对扩展性要求较高的
桌面解决方案 ZX-100S 兼容PCIE 3.0技术,并支持热
插拔技术与I/O虚拟化技术
ZX-200 I/O
拓展芯片 2017Q4 40nm \ 适用于对拓展性要求较高的
桌面及服务器等解决方案 ZX-200 兼容PCIE 2.0技术规范,最多
支持9通道PCIE 2.0传输
资料来源:兆芯官网,方正证券研究所整理
同时支持SM3/SM4加密算法,
可提供基于硬件的数据加密保
护;集成度更高,是真正意义
的单芯片解决方案
99. 最强兆芯:开先KX-6000系列概述
2019年第二季度,兆芯发布了全
新的KX-6000系列和KH-30000
系列。
兆芯KX-6000系列拥有全集成
X86 SOC、更高的主频和访问带
宽,支持DDR4-3200。
全新的KX-6000系列处理器拥有
出色的兼容性和应用体验,包括
Windows操作系统,日常办公应
用,4K视频解码和主流游戏。
兆芯KX-U6780A CPU-Z参数
兆芯KX-6000处理器特点
KX-6000/3.0GHz
KX-5000/2.0GHz
ZX-200 IOE
全集成X86 SOC
提高主频
提高访存带宽
支持DDR4-3200
内核性能优化
提高多核芯片整体性能
解决访存带宽瓶颈
支持DDR4-2400
兆芯KX-6000系列兼容性和应用体验
日常办公应用
资料来源:驱动之家,《微型计算机》杂志,方正证券研究所整理
4K解码
主流游戏
100. 最强兆芯:开先KX-6000系列内核
KX-6000系列使用的是16nm工艺,核心采
用超标量、多发射、乱序执行架构设计,兼
容最新的SSE4.2、AVX x86指令集、
SM3/SM4加速指令和国产加密算法,支持
64位系统、CPU硬件虚拟化技术,最多八个
核心,是国内首款达到3GHz频率的处理器
。
KX-6000是业界第一款完整集成CPU、
GPU、芯片组的SoC单芯片国产通用处理器
。
KX-6000内核性能相比上一代产品提升了多
达50%,同频下的性能功耗比则是上代产品
的3倍。
兆芯KX-6000处理器构成
KX-6000系列陆家嘴内核
KX-6000系列性能
资料来源:兆芯新闻中心,驱动之家,电子说,方正证券研究所整理
101. 兆芯KX-6000系列性能纵向与横向对比
KX-6000系列处理器,可以满足多种
市场的应用需求,主要面向高性能桌
面、便携终端、嵌入式等市场应用领
域。
KX-6000系列纵向对比:KX-6000系
列相较于上代KX-5000系列,在制程
和内核的双重升级下,多项性能测试
中有翻倍的提升。
KX-6000系列处理器横向对比:8核心
的KX-U6780A产品性能与第七代的4
核心英特尔i5整体水平仍存在差距,
尤其是单核性能不足7代i5一半,但整
数性能方面对英特尔i5进行了反超。
兆芯KX-6000与KX-5000纵向对比
测试项目
单位
KX-U5580 KX-U6780 对比
CPU-Z单线程 120 181 51%
CPU-Z多线程 928 1401 51%
Cinebench R20
多线程 Cb 612 929 52%
PerformanceTe
st 9.0单线程 秒 579 870 50%
PerformanceTe
st 9.0多线程 秒 3793 5729 51%
7-Zip多线程 PPS 14405 21038 46%
鲁大师5.19处理
器性能 PPS 34214 48436 42%
100% 149% 49%
性能百分比
兆芯KX-6000横向对比
锐龙5 3500X i5-9400F 奔腾G5420 i5-7400 兆芯KX-U6780 兆芯对比i5-7400
性能百分比(单
线程) 130% 122% 102% 100% 44% -56%
性能百分比(多
线程) 194% 185% 72% 100% 82% -18%
性能百分比(浮
点) 197% 187% 70% 100% 72% -28%
性能百分比(整
数) 190% 178% 76% 100% 106% 6%
资料来源:驱动之家,方正证券研究所整理
102. 兆芯CPU的后续发展
未来,兆芯还会对KX系列处理器进行进一步的更新,使用全新的CPU架构,将内存从DDR4升级
为DDR5,将总线从PCIe3.0升级至PCIe4.0。这些升级将大幅增强处理器的IPC性能。据兆芯王
惟林介绍,KX-7000的性能目标是达到同期AMD的水平,对标的产品至少是Zen2架构级别。
开胜KH-40000系列处理器预计于2021年正式推出,该产品拥有全新的自主CPU微架构设计,基
于16nm工艺,并继续沿用SoC方案,单颗处理器CPU核心数量达到现有开胜KH-30000系列处
理器的4倍。同时KH-40000将继续支持双路互联,即系统内最多可达64核心,并支持DDR4内存
和PCIe 3.0。
兆芯CPU发展路线图
微架构代号
处理器系列
特点
2015 2016 2017 2019
张江 张江 五道口 陆家嘴
ZX-C
4核
2.0 GHz主频
28nm工艺制程
ZX-C+
ZX-C+ Dual
Die
4核/8核
2.0 GHz主频
28nm工艺制程
资料来源:驱动之家,方正证券研究所整理
KX-5000
ZX-200
4核/8核
2.0 GHz主频
双通道DDR4
PCI-E 3.0
28nm工艺制程
USB3.1 Gen1/Gen2
USB2.0
SATA3
KX-6000
4核/8核
3.0 GHz主频
双通道DDR4
PCI-E 3.0
16nm工艺制程
未来
KX-7000
全新CPU微架构
DDR5
PCI-E 4.0
103. 其它国内CPU厂商:北京君正
北京君正是最早推出国产CPU 的技术公司之一,其 CPU 内核基于 MIPS 架构,已经迭代
了三代。XBurst 2 是君正 CPU 的最新版本,X2000 的 CPU 内 核采用“双 XBurst 2+
XBurst 0”的三核布局。
根据嵌入式典型应用场景测试结果,XBurst 2 内核算力相当于 Arm Cortex A53 的 1.3
倍,而典型功耗仅相当于其一半。Xburst 2的低功耗得益于RISC的MIPS指令集和北京君正
“完全自主可控的内核”,降低了电压、漏电率,实施动态管理。
XBurst 2 的典型功耗水平(mW/MHz)
资料来源:北京君正,方正证券研究所整理
北京君正X2000/E处理器内核
104. 其它国内CPU厂商:中天微和阿里平头哥
杭州中天微系统有限公司始终秉承“自主创新、追求卓越”理念,已开发了系列化的32位嵌入式CPU核,覆盖高、中、
低嵌入式应用,并广泛应用于物联网智能硬件、数字音视频、信息安全、网络和通信、工业控制、以及汽车电子等多个
领域。CK-CPU具有低功耗、高性能、高代码密度,以及易使用等特点。同时,中天CK-CPU系列全面支持中芯国际、
台积电、联电、华虹集成电路、华虹宏力、和舰科技等国际主流芯片代工厂从180纳米至28纳米的制程工艺。
2018年4月20日,阿里巴巴集团宣布,全资收购中天微,中天微与阿里达摩院合并后,成立了阿里平头哥。阿里平头哥
主要针对下一代云端一体芯片新型架构开发数据中心和IOT产品,采用RISC-V指令集,拥有面向行业应用以CPU、芯片
平台、OS及算法为核心的全栈技术。
C-SKY– 16/32位混合长度自主创新指令集
资料来源:百度百科,techweb,方正证券研究所整理
阿里平头哥CPU
105. 其它国内CPU厂商:紫光展锐
紫光展锐是中国集成电路设计产业的龙头企业,拥有5G和AI两个核心技术。紫光展锐是全球少数全
面掌握2G/3G/4G/5G、Wi-Fi、蓝牙、电视调频、卫星通信等全场景通信技术的企业之一,并具备
稀缺的大型SoC集成能力。产品包括移动通信中央处理器、基带芯片,AI芯片,射频前端芯片,射
频芯片等各类通信、计算及控制芯片。
紫光展锐的CPU应用于消费电子、工业电子、智能功率电子,其中以ARM为指令集的Cortex低功
耗核心A55、A53占主要地位。除ARM外,紫光展锐分别在耳机和工业电子中使用了RISC-V和
MIPS指令集。
虎贲T7520是紫光展锐第二代5G智能手机平台,采用6纳米EUV制程工艺,集成了全球首颗支持全
场景覆盖增强技术的5G调制解调器,可拓展大带宽4G/5G动态频谱共享技术,将为5G智能体验带
来更好的选择。
虎贲T7520 6纳米 EUV简介
虎贲T7520与其他手机CPU横向对比
紫光展锐虎贲
T7520
工艺
CPU
基带
NSA/
SA
AI
资料来源:紫光展锐,eefocus,方正证券研究所整理
高通骁龙
765G
华为海思麒
麟810 联发科天玑
800
台积电6nm
EUV 三星7nm
EUV 台积电7nm 台积电7nm
四核A76+
四核A55 双核
Kyro475
(A76)+六
核Kyro475
(A75) 双核A76+
六核A55 四核A76+
四核A55
集成5G基带 集成X52 5G
基带 外挂巴龙
5000 5G基
带 集成M70
5G基带
NSA/SA NSA/SA NSA/SA NSA/SA
集成新一代
NPU 集成第五代
AI引擎 自研达芬奇
架构NPU 4核AI处理
器APU3.0
106. 其它国内CPU厂商:合芯科技
合芯科技有限公司成立于2014年,是北京鑫诺投资有限公司高科技板块中专注于集成电路领
域的全资子公司,公司聚焦国产化服务器芯片研发,致力于与国际顶尖技术授权方和指令集
架构开源组织深度合作,开发基于完备技术授权的国产化高性能服务器芯片组;生产、销售
服务器芯片组及按客户需求定制化的服务器设备。
和芯科技在2014年与IBM签署了POWER 8授权协议,并加入了OpenPower基金会,随后发
布了CP1及服务器产品。合芯科技于2017年申报核高基01专项,并在2020年控股中晟宏芯,
在粤港澳、长三角、北京、奥斯丁分别设有研发中心。
合芯科技产品线
资料来源:合芯科技,方正证券研究所整理
107. 风险提示
中美局势紧张,国际形势面临不确定的风险。CPU产业链为先进制程芯片产业链
,对于14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外
领先龙头差距较大,容易受到美国实体清单的负面影响。
国产替代不及预期的风险。基于安全的自主可控是推动国产CPU成长的主要力量
,目前国产CPU还正在验证和优化之中,存在国产替代不及预期的风险。
国产CPU生态建设不及预期的风险。生态的作用在CPU市场上表现的十分突出,
目前国内企业对生态领导能力较弱,天津飞腾和银河麒麟搭建的PK体系相较于英
特尔和微软构成的Wintel体系存在较大提升空间。
108. 分析师声明
作者具有中国证券业协会授予的证券投资咨询执业资格,保证报告所采用的数据和
信息均来自公开合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了
作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。研究
报告对所涉及的证券或发行人的评价是分析师本人通过财务分析预测、数量化方法、
或行业比较分析所得出的结论,但使用以上信息和分析方法存在局限性。特此声明。
免责声明
本研究报告由方正证券制作及在中国(香港和澳门特别行政区、台湾省除外)发布。
本研究报告仅供方正证券的客户使用,本公司不会因接收人收到本报告而视其为本公
司的当然客户。
在任何情况下,本报告的内容不构成对任何人的投资建议,也没有考虑到个别客户
特殊的投资目标、财务状况或需求,方正证券不对任何人因使用本报告所载任何内容
所引致的任何损失负任何责任,投资者需自行承担风险。
109. 本报告版权仅为方正证券所有,本公司对本报告保留一切法律权利。未经本公
司事先书面授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的
全部或部分内容,不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不
得用于营利或用于未经允许的其它用途。如需引用、刊发或转载本报告,需注明出
处且不得进行任何有悖原意的引用、删节和修改。
公司投资评级的说明
强烈推荐:分析师预测未来半年公司股价有20%以上的涨幅;
推荐:分析师预测未来半年公司股价有10%以上的涨幅;
中性:分析师预测未来半年公司股价在-10%和10%之间波动;
减持:分析师预测未来半年公司股价有10%以上的跌幅。
行业投资评级的说明
推荐:分析师预测未来半年行业表现强于沪深300指数;
中性:分析师预测未来半年行业表现与沪深300指数持平;
减持:分析师预测未来半年行业表现弱于沪深300指数。
110. THANKS
专注 专心 专业
联系人: 李萌 limeng1@foundersc.com
方正证券研究所
北京市西城区展览路48号新联写字楼6层
上海市浦东新区新上海国际大厦33层
广东省深圳市福田区竹子林四路紫竹七路18号光大银行大厦31楼
湖南省长沙市天心区湘江中路二段36号华远国际中心37层