电子行业深度报告:GPU研究框架

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 证券研究报告 电子行业 2021年3月6日 GPU研究框架 ——行业深度报告 分析师: 联系人: 陈杭 李萌 执业证书编号: S1220519110008
2. 目录 一、GPU投资逻辑框架 GPU:专用计算时代的刚需 GPU投资地图:寡头垄断下高速发展 GPU产业链纵深:纺锤状的三大路线 GPU产业链:先进制程数字芯片产业链 二、详解GPU:专用计算时代的“画师” 三、知己知彼:GPU的全球格局与行业龙头 四、国产GPU自主之路:详解国产GPU
3. GPU:专用计算时代的刚需  处理器芯片经历了从专用到通用,再从通用到专用的2次转变。其中,可存储指令的冯•诺依曼体系和1971年X86 CPU的诞生是第一次转折的诱因;摩尔定律的减速和以GPU为代表的异构运算的崛起是第二次转折的诱因。  异构时代,芯片需集成多个模块来满足不同的需求。例如汽车芯片集成了GPU、CPU、NPU等至少10种处理单元。 专用 1970年 之前 冯•诺依曼 体系结构 通用技术 通用 1971-2006 周期衰弱 晶体管 计算机 GPU 录音机 计算器 专用 2006年 之后 NPU 通用 CPU 专用组合 汽车智能驾驶 异构计算 GPU NPU CPU 存储控 制芯片 ISP 视频解 码芯片 相机IF 系统安 全芯片 DLA PVA CPU 电视机 FPGA 电话机 ASIC 资料来源:方正证券研究所 通用技术 周期衰弱 异构崛起
4. 从GPU应用看GPU投资地图  GPU被广泛地运用于PC、游戏主机、汽车、服务器、移动等领域。其中注重算力的服务器和注重便携性的移动端分别 采用独立和集成GPU,而汽车、游戏主机、PC等主要采用独立+集成的GPU接入方式。  全球GPU市场表现为寡头垄断下的高增长,年复合增速超过30%,主要市场份额被英伟达等美系企业占领。在此宏观 背景下,国产GPU企业蓬勃发展,在GPU软硬件方面同时出击,呈现“星星之火,可以燎原”之势。 全球GPU市场前景 2020年 GPU应用场景 GPU接入方式 服务器 独立GPU 254 亿美元 全球GPU市场规模 PC 游戏主机 独立 GPU + 集成 GPU 汽车 1853 亿美元 2027年 资料来源:方正证券研究所 移动端 集成GPU GPU供应商 G P U 三 寡 头 其 他 中 国 大 陆 企 业
5. GPU产业链纵深 GPU三大发展模式 核心代表厂商 各产业环节特点  特点:专注于GPU驱 动等相关软件,不涉 及GPU硬件设计 “SaaS” GPU软件 “PaaS” GPU硬件 + GPU软件 “IaaS” GPU硬件  核心壁垒:GPU API 和GPU驱动协同优化  特点:GPU硬件设计 和GPU软件同步推进 ,发挥协同效应  核心壁垒:GPU微架 构设计和GPU驱动优 化  特点:专注于GPU制 造和封装,不涉及 GPU软件编程  核心壁垒:掌握GPU 的先进制造和先进封 装 资料来源:方正证券研究所
6. 国产GPU产业链—先进制程数字芯片产业链  GPU是数字芯片,基于制程越小,性能越好的规律,GPU产业链是先进制程数字芯片产业链。  当前国产GPU产业链进口替代:设计环节,景嘉微等龙头在不断追赶,封测环节,通富承接AMD 7nm GPU封测,14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外领先龙头差距较大, 目前仍采用“外循环为主+内循环为辅”的模式。 设备 材料 EDA/IP 设计 制造 封测 北方 华创 沪硅 产业 寒 武纪 景 嘉微 中芯 国际 通富 微电 江丰 电子 盛美 中微 神工 股份 万业 企业 屹唐 安集 鼎龙 华峰 测控 华海 清科 金宏 气体 至纯 科技 精测 电子 雅克 科技 资料来源:方正证券研究所 芯原 股份 芯 华章 芯动 科技 航锦 科技 兆芯 中船 重工 龙芯 芯瞳 半导体 长电 科技 华天 科技
7. 海外GPU产业链—先进制程数字芯片产业链  GPU产业链的巨头大多集中在海外,它们位居产业链各个环节核心,对全球GPU行业起着决定性的作用。  设计环节:NVIDIA、AMD几乎垄断独立GPU的市场,英特尔、AMD几乎垄断集成GPU市场;设备、材料 、EDA/IP等环节国内龙头与国外龙头差距较大,国产化率较低;制造环节:目前只有台积电和三星有5nm 制程生产能力,但均需使用美国设备;封测环节:目前中国台湾、中国大陆、美国三分天下。 设备 材料 EDA/IP 设计 制造 封测 应用 材料 信越 化学 新思 科技 英 伟达 日 月光 阿 斯麦 台 积电 SUM CO AMD 卡 博特 英 特尔 安靠 东京 电子 铿腾 电子 三星 矽品 精密 LAM 科天 爱德万 泰瑞达 英 特尔 Imagination 苹果 陶氏 住友 化学 资料来源:方正证券研究所 ARM 高通 格罗 方德 英特尔 三星
8. 目录 一、GPU投资逻辑框架 二、详解GPU:专用计算时代的“画师” GPU的构成:微架构、API “XPU”的竞争:GPU对比CPU、FPGA、ASIC 以史为镜:分析GPU微架构、制程、API发展趋势 GPU供需分析:5大驱动力,2大生产方式 三、知己知彼:GPU的全球格局与行业龙头 四、国产GPU自主之路:详解国产GPU
9. GPU定义和内部结构  GPU(graphics processing unit)图形处理器,又称显示核心、视觉处理器、显示芯片,是一种在个人电脑、 工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。  GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、 显示界面。  GPU的出现使计算机减少了对CPU的依赖,并解放了部分原本CPU的工作。在3D图形处理时,GPU采用的核心技 术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四 像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。 GPU的内部组成部份 总线接口 电源管理单元 GPU核心及PCB板 图形显存控制器 压缩单元 VGA BIOS 视频管理单元 图像和计算阵列 显示接口 资料来源:维基,Extremetech,方正证券研究所整理
10. GPU的构成:微架构概述  GPU的微架构(Micro Architecture)一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要 用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同 的指令集和图形函数集合可以在不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对GPU性能 和效能的提升发挥着至关重要的作用。我们认为,GPU体系是GPU微架构和图形API的集合。  以目前最新的英伟达安培微架构为例,GPU微架构的运算部份由流处理器(Stream Processor,SP)、纹理单元 (Texture mapping unit, TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元 (ROPs)组成。这些运算单元中,张量单元,光线追踪单元由NVIDIA在伏特/图灵微架构引入。  除了上述运算单元外,GPU的微架构还包含L0/L1操作缓存、Warp调度器、分配单元(Dispatch Unit)、寄存器 堆(register file)、特殊功能单元(Special function unit,SFU)、存取单元、显卡互联单元(NV Link)、 PCIe总线接口、L2缓存、二代高位宽显存(HBM2)等接口。 英伟达安培内核概览 资料来源:NVIDIA白皮书,方正证券研究所整理 英伟达安培内核“SM”单元
11. GPU的构成:详解微架构SP、ROPs、TMU     GPU的流处理器单元是NVIDIA对其统一架构GPU内通用标量着色器的命名。SP单元是全新的全能渲染单元,是继Pixel Pipelines(像素管线)和Vertex Pipelines(顶点管线)之后新一代的显卡渲染技术指标。SP单元既可以完成VS(Vertex Shader,顶点着色器)运算,也可以完成PS(Pixel Shader,像素着色器)运算,而且可以根据需要组成任意VS/PS比例 ,从而给开发者更广阔的发挥空间。 流处理器单元首次出现于DirectX 10时代的G80核心的Nvidia GeForce 8800GTX显卡,是显卡发展史上一次重大的革新 。之后AMD/ATI的显卡也引入了这一概念,但是流处理器在横向和纵向都不可类比,大量的流处理器是GPU性能强劲的必 要非充分条件。 纹理映射单元(TMU)作为GPU的部件,它能够对二进制图像旋转、缩放、扭曲,然后将其作为纹理放置到给定3D模型的 任意平面,这个过程称为纹理映射。纹理映射单元不可简单跨平台横向比较,大量的纹理映射单元是GPU性能强劲的必要 非充分条件。 光栅化处理单元(ROPs)主要负责游戏中的光线和反射运算,兼顾AA、高分辨率、烟雾、火焰等效果。游戏里的抗锯齿 和光影效果越厉害,对ROPs的性能要求就越高,否则可能导致帧数的急剧下降。NVIDIA的ROPs单元是和流处理器进行捆 绑的,二者同比例增减。在AMD GPU中,ROPs单元和流处理器单元没有直接捆绑关系。 英伟达安培内核SP、ROPs、TMU拆解  流处理器  光栅化处理单元  纹理映射单元 资料来源: NVIDIA白皮书,videocardz,方正证券研究所整理 英伟达RTX 3080 GPU-Z参数  8704个统一 流处理器  96个光栅化处 理单元  272个纹理映 射单元
12. GPU的构成:详解微架构光线追踪单元和张量单元    消费GPU的实时光线追踪在2018年由英伟达的“图灵”GPU首 次引入,光追单元(RT Cores)在此过程中发挥着决定性的作 用。图灵GPU的光追单元支持边界体积层次加速,实时阴影、 环境光、照明和反射,光追单元和光栅单元可以协同工作,进 一步提高帧数和阴影的真实感。 光追单元在英伟达的RTX光线追踪技术、微软DXR API、英伟 达Optix API和Vulkan光追API的支持下可以充分发挥性能。 拥有68个光追单元的RTX2080Ti在光线处理性能上较无光追单 元的GTX1080Ti强10倍。 张量单元(Tensor Core)在2017年由英伟达的“伏特”GPU 中被首次引入。张量单元主要用于实时深度学习,服务于人工 智能,大型矩阵运算和深度学习超级采样(DLSS),可以带来 惊人的游戏和专业图像显示,同时提供基于云系统的快速人工 智能。 英伟达图灵GPU光追单元运作流程 资料来源:英伟达白皮书,方正证券研究所整理 英伟达RTX2080Ti张量单元算力 峰值FP16 张量 TFLOPS (带有FP16累加) 107.6 峰值FP16 张量 TFLOPS (带有FP32累加) 53.8 峰值INT8 张量 TOPS 215.2 峰值INT4 张量 TOPS 430.3 英伟达图灵GPU张量单元提供多精度AI
13. GPU的构成:API概述  GPU的API(Application Programming Interface)应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用 。不过随着系统优化的深入,API也可以直接统筹管理高级语言、显卡驱动和底层汇编语言。  3D API能够让编程人员所设计的3D软件只需调动其API内的程序,让API自动和硬件的驱动程序沟通,启动3D芯 片内强大的3D图形处理功能,从而大幅地提高3D程序的设计效率。同样的,GPU厂家也可以根据API标准来设计 GPU芯片,以达到在API调用硬件资源时的最优化,获得更好的性能。3D API可以实现不同厂家的硬件、软件最 大范围兼容。如果没有API,那么开发人员必须对不同的硬件进行一对一的编码,这样会带来大量的软件适配问题 和编码成本。  目前GPU API可以分为2大阵营和若干其他类。2大阵营分别是微软的DirectX标准和KhronosGroup标准,其他 类包括苹果的Metal API、AMD的Mantle(地幔)API、英特尔的One API等。 传统API在GPU的地位 微软DirectX和Khronos Group API组合对比 厂家 高级语言(游戏引擎等) 微软DirectX API 显卡驱动 Khronos Group 底层语言(汇编/机器码) 资料来源:极客湾数码港,方正证券研究所整理 标准 应用领域 Direct3D 3D图形 Direct2D 2D图形 DirectCompute 通用计算 XAudio 音频 XInput Xbox手柄 OpenGL 图形 Vulkan 图形 OpenGL ES 移动图形 WebGL 网页图形 OpenCL 通用计算
14. GPU的构成:DrirectX API和OpenGL API  DirectX是Direct eXtension的简称,作 为一种API,是由微软公司创建的多媒体编 程接口。DirectX可以让以Windows为平 台的游戏或多媒体程序获得更高的执行效 率,加强3D图形和声音效果,并提供设计 人员一个共同的硬件驱动标准,让游戏开 发者不必为每一品牌的硬件来写不同的驱 动程序,也降低用户安装及设置硬件的复 杂度。DirectX已被广泛使用于Windows 操作系统和Xbox主机的电子游戏开发。  OpenGL是Open Graphics Library的简 称,是用于渲染2D、3D矢量图形的跨语言 、跨平台的应用程序编程接口(API),相 比DirectX更加开放。这个接口由近350个 不同的函数调用组成,用来绘制从简单的 二维图形到复杂的三维景象。OpenGL常 用于CAD、虚拟现实、科学可视化程序和 电子游戏开发。  正是由于OpenGL的开放,所以它可以被 运行在Windows、MacOS、Linux、安 卓、iOS等多个操作系统上,学习门槛也比 DirectX更低。但是,效率低是OpenGL的 主要缺点。 DirectX和OpenGL特点对比 特点 OpenGL DirectX 顶点混合 / 是 多种操作系统 是 否 拓展机制 是 是 开发 多个会员 微软 完整规格 是 否 双边光照 是 否 体积纹理 是 否 硬件独立Z缓冲 是 否 累计缓冲 是 否 全屏抗锯齿 是 是 动态模糊 是 是 景深 是 是 立体渲染 是 否 点大小/线宽属性 是 否 采集 是 否 参数曲线和曲面 是 否 缓存几何 显示列表 顶点缓冲 系统模拟 硬件不存在 由应用决定 端口 程序调动 通讯端口 更新升级 每年 每年 源代码 样品 SDK实施 学习门槛 低 高 效率 较低 较高 资料来源:Cprogramming,百度百科,方正证券研究所整理
15. GPU的构成:苹果Metal API和Vulkan API     Metal是Apple在2014年创建的接近底层的,低开 销的硬件加速3D图形和计算着色器API。Metal在 iOS 8中首次亮相。Metal在一个API中结合了类似 于OpenGL和OpenCL的功能。它旨在通过为iOS, iPadOS,macOS和tvOS上的应用程序提供对GPU 硬件的底层访问来提高性能。相较于OpenGL ES, Metal减少了10倍的代码拥挤,提供了更好的解决 方案,并将会在苹果设备中取代OpenGL。Metal 也支持英特尔HD和IRIS系列GPU、AMD的GCN和 RDNA GPU、NVIDIA GPU。Metal也是可以使用 Swift或Objective-C编程语言调用的面向对象的API 。GPU的全部操作是通过Metal着色语言控制的。 2017年,苹果推出了Metal的升级版Metal2,兼 容前代Metal硬件,支持iOS11,MacOS和 tvOS11。Metal2可以在Xcode中更有效地进行配 置和调试,加快机器学习速度,降低CPU工作量, 在MacOS上支持VR,充分发挥A11 GPU的特性。 Vulkan是一种低开销,跨平台的3D图像和计算API 。Vulkan面向跨所有平台的高性能实时3D图形应用 程序,如视频游戏和交互式媒体。与OpenGL, Direct3D 11和Metal相比,Vulkan旨在提供更高的 性能和更平衡的CPU/GPU用法。除了较低的CPU使 用外,Vulkan还旨在使开发人员更好地在多核CPU 中分配工作。 Vulkan源自并基于AMD的Mantle API组件,最初 的版本被称为OpenGL的下一代。最新的Vulkan 1.2发布于2020年1月15日,该版本整合了23个额 外经常被使用的Vulkan拓展。 资料来源:维基,驱动之家,方正证券研究所整理 Metal与OpenGL性能对比 500 450 400 350 300 250 200 150 100 50 0 iPad Air 2 (Metal) iPhone 6 Plus (Metal) iPhone 5s (Metal) iPhone 6 (Metal) iPad Air 2 iPhone 6 iPhone 6 Plus iPhone 5s 系统开销测试(帧数) OpenGL和Vulkan对比 OpenGL Vulkan 单一全局状态 基于对象,没有全局状态 状态与单一环境相联系 所有状态概念都可以本地化 到命令缓冲区 操作只能顺序执行 可以进行多线程编程 GPU的内存和同步通常是被 隐藏的 清晰的显存管理和同步化控 制 广泛的错误检查 Vulkan驱动程序在运行时不 进行错误检查;有一个针对 开发人员的验证层
16. GPU生态  软件生态方面,GPU无法单独工作,必须由CPU进行控制调用才能工作,而CPU在处理大量类型一致的数据 时,则可调用GPU进行并行计算。所以,GPU的生态和CPU的生态是高度相关的。  近年来,在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下,通用图形处理器( GPGPU)逐渐“反客为主”,利用GPU来计算原本由CPU处理的通用计算任务。  目前,各个GPU厂商的GPGPU的实现方法不尽相同,如NVIDIA使用的CUDA(compute unified device architecture)技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以 让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异 构加速的优势。以上4种技术中,只有OpenCL支持跨平台和开放标注的特性,还可以使用专门的可编程电路 来加速计算,业界支持非常广泛。 DirectX和OpenGL生态对比 API 操作系统 OpenCL联盟生态 各操作系统占比 0.86% 1.51% 7.14% Direct X 16.47 % 40.30 % 32.46 % Open GL 安卓 Windows IOS OSX Chrome OS 其他 资料来源: Statcounter ,超能网,方正证券研究所整理
17. GPU的分类   GPU根据接入方式可以划分为独立GPU和集成GPU。独立 GPU一般封装在独立的显卡电路板上,拥有独立显存,而集成 GPU常和CPU共用一个Die,共享系统内存。 GPU根据应用端可以划分为PC GPU、服务器GPU、移动GPU 。PC GPU,在轻度办公场景下会优先考虑集成GPU,提高效 能;在重度办公场景下会优先考虑独立GPU,保证性能输出。 服务器GPU可做专业图形处理、计算加速、深度学习等应用, 根据云计算、人工智能等一系列技术的发展,服务器GPU将以 独立GPU为主。移动GPU由于专注轻薄,内部空间紧凑,所以 一般采用集成GPU。 GPU的主要分类 类别 集成GPU Die 主要厂商、产品(及客户) 独立GPU AMD(Radeon系列)、 NVIDIA(Geforce系列) 集成GPU 英特尔(HD系列)、AMD (APU系列) PC GPU 英特尔、NVIDIA、AMD 服务器GPU NVIDIA(Tesla)、AMD (FireStream) 接入方式 应用端 移动GPU 独立GPU Imagination(PowerVR系 列);高通骁龙(Adreno系 列);ARM(公版Mali系列); 苹果A系列自研GPU 资料来源:架构师技术联盟,techpowerup,NVIDIA,方正证券研究所整理
18. GPU的显存  GPU显存是用来存储显卡芯片处理过或者即将 提取的渲染数据,是GPU正常运作不可或缺的 核心部件之一。  GPU的显存可以分为独立显存和集成显存两种 。目前,独立显存主要采用GDDR3、GDDR5 、GDDR5X、GDDR6,而集成显存主要采用 DDR3、DDR4。服务器GPU偏好使用Chiplet 形式的HBM显存,最大化吞吐量。  集成显存受制于64位操作系统的限制,即便组 成2通道甚至4通道,与独立显存的带宽仍有相 当差距。通常这也造成了独立GPU的性能强于 集成GPU。 显存的主要分类 独立显存的工作方式 集成显存的工作方式 类型 存储频率(MHz) 带宽(GB/S) DDR 200-400 1.6-3.2 DDR2 400-1066.67 3.2-8.533 DDR3 800-2133.33 6.4-17.067 DDR4 1600-4866 12.8-25.6 GDDR4 3000-4000 160-256 GDDR5 1000-2000 288-336.5 GDDR5X 1000-1750 160-673 GDDR6 1365-1770 336-672 HBM 250-1000 512-1024 资料来源:维基,方正证券研究所整理
19. 集成显卡和独立显卡对比  集成显卡是指一般不带显存,而是使用系统的一部分主内存作为显存的显卡。集成显卡可以被整合进主板作为北 桥芯片的一部分,也可以和CPU集成在同一个Die中。集成显卡的显存一般根据系统软件和应用软件的需求自动调 整。如果显卡运行需要占用大量内存空间,那么整个系统运行会受限,此外系统内存的频率通常比独立显卡的显 存低很多,因此集成显卡的性能比独立显卡要逊色一些。  独立显卡是将显示芯片及相关器件制作成一个独立于电脑主板的板卡,成为专业的图像处理硬件设备。独立显卡 因为具备高位宽、高频独立显存和更多的处理单元,性能远比集成显卡优越,不仅可用于一般性的工作,还具有 完善的2D效果和很强的3D水平,因此常应用于高性能台式机和笔记本电脑,主要的接口为PCIe。  如今,独立显卡与集成显卡已经不是2个完全割裂,各自为营的图像处理单元了。二者在微软DX12的支持下也可 以实现独核显交火,同时AMD和NVIDIA的显卡也可实现混合交火。 集成显卡和独立显卡对比 区别 与CPU的关系 集成显卡 集成在CPU里面的图像处理单元,构成 CPU的一部分 独立显卡 单独插在主板上的图像处理单元,其接口是PCIe, 是一个独立的电脑组件 价格 低 高 兼容性 较好 较差 性能 较差 较好 升级成本 低 高 功耗 低 高 是否占用电脑内存 是 否 主要生产商与产品 英特尔(HD系列)、AMD(APU系列) AMD(Radeon系列)、NVIDIA(Geforce系 列等) 主要应用领域 移动计算市场,如笔记本和智能手机 高性能游戏电脑,VR/AR,人工智能 资料来源:方正证券研究所
20. GPU对比CPU    从芯片设计思路看,CPU是以低延迟为导向的计算 单元,通常由专为串行处理而优化的几个核心组成, 而GPU是以吞吐量为导向的计算单元,由数以千计 的更小、更高效的核心组成,专为并行多任务设计。 CPU和GPU设计思路的不同导致微架构的不同。 CPU的缓存大于GPU,但在线程数,寄存器数和 SIMD(单指令多数据流)方面GPU远强于CPU。 微架构的不同最终导致CPU中大部分的晶体管用于 构建控制电路和缓存,只有少部分的晶体管完成实际 的运算工作,功能模块很多,擅长分支预测等复杂操 作。GPU的流处理器和显存控制器占据了绝大部分 晶体管,而控制器相对简单,擅长对大量数据进行简 单操作,拥有远胜于CPU的强大浮点计算能力。 GPU和CPU的核心设计思路对比 低延迟核心 以吞吐量为导向的核心 计算单元 核心 缓存/本地存储 本地缓存 寄存器 寄存器 单指令多数 据流单元 控制 单指令多数据流 单元 GPU和CPU的核心对比 强劲的算术逻辑单元: 减少运行延迟 大缓存: 将长延迟的存储访问转换 为低延迟的缓存访问 复杂控制器: CPU  分支预测来减少分支 延迟  数据推进来减少数据 延时 资料来源: Slideplayer,方正证券研究所整理 高效能算数逻辑单元: 大量长延迟但高度流水线 化的单元实现高吞吐 需要大量线程来承受高 延迟:  逻辑线程化  线程状态 小缓存: 提高存储吞吐量 简单控制器:  没有分支预测  没有数据推进 GPU 线 程
21. GPU对比CPU  后摩尔时代,随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染,部份GPU被用于图形渲 染以外领域的计算成为GPGPU。与此同时,CPU为了追求通用性,只有少部分晶体管被用于完成运算,而大部分 晶体管被用于构建控制电路和高速缓存。但是由于GPU对CPU的依附性以及GPU相较CPU更高的开发难度,所以 GPU不可能完全取代CPU。我们认为未来计算架构将是GPU+CPU的异构运算体系。  在GPU+CPU的异构运算中,GPU和CPU之间可以无缝地共享数据,而无需内存拷贝和缓存刷新,因为任务以极 低的开销被调度到合适的处理器上。CPU凭借多个专为串行处理而优化的核心运行程序的串行部份,而GPU使用 数以千计的小核心运行程序的并行部分,充分发挥协同效应和比较优势。  异构运算除了需要相关的CPU和GPU等硬件支持,还需要能将它们有效组织的软件编程。OpenCL是(Open Computing Language)的简称,它是第一个为异构系统的通用并行编程而产生的统一的、免费的标准。 OpenCL支持由多核的CPU、GPU、Cell架构以及信号处理器(DSP)等其他并行设备组成的异构系统。 OpenCL异构运算构成 异构运算下的GPU工作流程 应用 CPU运行的操作系 统 排队作业 开始工作 HAS软件 结束工作 结果 资料来源:维基,中关村在线,方正证券研究所整理
22. GPU与ASIC和FPGA的对比      数据、算力和算法是AI三大要素,CPU配合加速芯片的模式 成为典型的AI部署方案,CPU提供算力,加速芯片提升算力 并助推算法的产生。常见的AI加速芯片包括GPU、FPGA、 ASIC三类。 GPU用于大量重复计算,由数以千计的更小、更高效的核心 组成大规模并行计算架构,配备GPU的服务器可取代数百台通 用CPU服务器来处理HPC和AI业务。 FPGA是一种半定制芯片,灵活性强集成度高,但运算量小, 量产成本高,适用于算法更新频繁或市场规模小的专用领域。 ASIC专用性强,市场需求量大的专用领域,但开发周期较长 且难度极高。 在AI训练阶段需要大量数据运算,GPU预计占64%左右市场 份额,FPGA和ASIC分别为22%和14%。推理阶段无需大量 数据运算,GPU将占据42%左右市场,FPGA和ASIC分别为 34%和24%。 不同应用场景AI芯片性能需求和具体指标 应用场景 典型计算能力 典型功耗 终端 低功耗、推 理任务为主, 成本敏感 <8TOPS <5瓦 云端 高性能、兼 有推理和训 练、单价高 >30TOPS >50瓦 要求介于终 端与云之间、 推理为主 5TOPS至 30TOPS 4-15瓦 边缘端 芯片需求 GPU、FPGA、ASIC AI芯片对比 芯片种类 GPU FPGA ASIC 芯片架构 晶体管大部分构建计算单元,运 算复杂度低,适合大规模并行计 算 可编程逻辑,计算效率高,更接 近底层IO,通过冗余晶体管和连 线实现逻辑可编程 晶体管根据算法定制,不会有冗 余,功耗低、计算性能高、计算 效率高 擅长领域 图像处理、“粗粒度并行”计算 算法更新频繁或市场规模小的专 用领域 市场需求量大的专用领域 优点 并行运算能力强 计算效率比CPU和GPU更高,更 接近IO 体积小、功耗低、计算性能高、 计算效率高、芯片出货量越大成 本越低 缺点 价格贵、功耗散热高 编程门槛高、峰值性能不如 ASIC、量产成本高 算法固定、开发周期长、上市速 度慢、一次性成本高、风险大 资料来源:智能计算芯世界,方正证券研究所整理
23. “考古”GPU:GPU发展历史  在PC诞生之初,并不存在GPU的概念,所有的图形和多媒体运算都由CPU负责。但是由于X86 CPU的暂存器数量 有限,适合串行计算而不适合并行计算,虽然以英特尔为代表的厂商多次推出SSE等多媒体拓展指令集试图弥补 CPU的缺陷,但是仅仅在指令集方面的改进不能起到根本效果,所以诞生了图形加速器作为CPU的辅助运算单元 。  GPU的发展史概括说来就是NVIDIA、AMD(ATI)的发展史,在此过程中曾经的GPU巨头Imagination、3dfx、 东芝等纷纷被后辈超越。如今独立显卡领域主要由英伟达和AMD控制,而集成显卡领域由英特尔和AMD控制。 GPU的发展史 时间 1999年之前 1999-2007 2007-2017 2018至今 产品特征  2D加速与3D加速分离  固定管线 2D与3D加速融合 管线时代(像素管线、顶点 管线等) 英伟达  NV 1  RIVA TNT  RIVA TNT2         Wonder系列  Mach系列  Rage系列 英特尔  I740  i752 GeForce 256 GeForce 2系列 GeForce 3系列 GeForce 4系列 GeForce FX系列 GeForce 6系列 GeForce 7系列      R100系列 R200系列 R300系列 R400系列 R500系列      i845G/E芯片组 i865G芯片组 GMA900 GMA950 GMA X3000系列 G80系列 G90系列 特斯拉系列 费米系列 开普勒系列 麦克斯韦尔系列 帕斯卡系列           Radeon HD 2000系列 Radeon HD 3000系列 Radeon HD 4000系列 Radeon HD 5000系列 Radeon HD 6000系列 GCN 1代 GCN 2代 GCN 3代 GCN 4代 GCN 5代            GMA X4500系列 HD Graphics系列 HD Graphics 2000/3000 HD Graphics 4000系列 HD Graphics 5000系列 HD Graphics 6000系列 Iris 5000系列 Iris 6000系列 HD500/UHD500系列 HD600/UHD600系列 Iris600系列 显卡管线时代结束,进入流 处理器单元时代         光线追踪  人工智能  图灵系列  安培系列 资料来源:维基,方正证券研究所整理 AMD/ATI  RDNA系列  RDNA2系列  UHD Graphics系列  Iris Plus Graphics系列
24. GPU发展史:NVIDIA GPU微架构回顾  英伟达的GPU架构自2008年以来几乎一直保持着每2年一次大更新的节奏,带来更多更新的运算单元和更 好的API适配性。在每次的大换代之间,不乏有一次的小升级,如采用开普勒二代微架构的GK110核心相 较于采用初代开普勒微架构的GK104核心,升级了显卡智能动态超频技术,CUDA运算能力提升至3.5代 ,极致流式多处理器(SMX)的浮点运算单元提升8倍,加入了Hyper-Q技术提高GPU的利用率并削减了 闲置,更新了网格管理单元(Grid Management Unit),为动态并行技术提供了灵活性。  英伟达GPU微架构的持续更新,使英伟达GPU的能效提升了数十倍,占领了独立显卡技术的制高点。 2008-2020英伟达GPU微架构进化 性能  第一个统 一着色器 微架构  CUDA单 元引入  首次支持 DX10  着色器模 型4.0  首次支持 DX11  支持 GDDR5 显存  双精度浮 点(FP64) 性能提升  ECC支持  统一64位 内存寻址  能耗比较 费米翻倍  支持PCIe 3.0  动态并行 计算  极致流式 多处理器  GPU动态 超频  能效较开 普勒翻倍  支持 DX12  SMM流 处理器  动态高分 辨率技术  HBM  NV link  GDDR5 X显存  GPU动态 超频3.0 安培 图灵 帕斯卡  二代Tensor 单元  RT单元  GDDR6显存  HBM2  深度学习超采 样(DLSS) 麦克斯韦尔 开普勒  三代Tensor单 元  二代RT单元  GDDR6X显存  HBM2  深度学习超采 样(DLSS)  PCIe4.0 费米 特斯拉 2008 2010 资料来源:维基,方正证券研究所整理 2012 2014 2016 2018 2020 时间
25. GPU发展史:微软DirectX API回顾  图形API在GPU的运算过程中发挥着连接高级语言、显卡驱动乃至底层汇编语言的作用,充当GPU运行和开发的 “桥梁”和“翻译官”。微软DirectX标准可以划分为显示部份、声音部份、输入部分和网络部分,其中与GPU具 有最直接关系的是显示部分。显示部份可分为DirectDraw和Direct3D等标准,前者主要负责2D图像加速,后者主 要负责3D效果显示。  从1995年发布的初代DirectX 1.0开始微软的DirectX已经更新到了DirectX 12。在此过程中,DirectX不断完善 对各类GPU的兼容,增加开发人员的权限,提高GPU的显示质量和运行帧数。  DirectX一般和Windows操作系统同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。 1998-2014微软DirectX进化 性能  加入了双 线性过滤 和三线性 过滤  3D游戏走 向成熟  支持坐标 转换和光 源(T&L)  2D和3D 组件分离 的最后一 版  2D和3D 组件集成 的第一版  引入像素 渲染  首次支持 动态光影  取消传统 (T&L)  着色器模 型3.0  取消指令 数限制  位移贴图 等新技术  并行GPU 支持  增加几何 渲染单元  统一渲染 架构 DirectX 12 DirectX 11 DirectX 10  曲面细分技术  着色器模型 5.0  多线程资源利 用强化  计算着色器  纹理压缩改进 DirectX 9 DirectX 8  底层API支 持  多线程效率 提升  光线追踪  可变速率着 色  取样器反馈 DirectX 7 DirectX 6 1998 1999 2000 资料来源:百度百科,维基,方正证券研究所整理 2002 2006 2009 2014 时间
26. GPU发展史:NVIDIA GPU制程回顾  GPU和CPU都是以先进制程为导向的数字芯片。先进制程可以在控制发热和电能消耗的同时,在有限的 Die中放入尽可能多的晶体管,提高GPU的性能和能效。  NVIDIA的GPU从2008年GT200系列的65纳米制程历经12年逐步升级到了RTX3000系列的7/8纳米制程 ,在整个过程中,晶体管数量提升了20多倍,逐步确立了在独立GPU的市场龙头地位。  同时在整个过程中,NVIDIA一直坚持不采用IDM的模式,而是让台积电负责GPU的制造,自生专注于芯 片设计,充分发挥比较优势。 2008-2020英伟达GPU主要制程和晶体管数进化 性能 安培  90纳米、 65纳米、 55纳米、  最多14亿 晶体管  40纳米、 28纳米  最多30亿 晶体管  台积电28 纳米  最多71亿 晶体管  台积电28 纳米  最多80亿 晶体管  台积电16 纳米  最多153 亿晶体管 图灵  台积电7纳米  三星8纳米  最多283亿 晶体管 帕斯卡  台积电12 纳米  最多186亿 晶体管 麦克斯韦尔 开普勒 费米 特斯拉 2008 2010 资料来源:维基,方正证券研究所整理 2012 2014 2016 2018 2020 时间
27. GPU微架构升级趋势:更多、更专、更智能  根据前12年的GPU发展轨迹来看,我们认为, GPU微架构的升级趋势可以简要地概括为”更多 ”、”更专”、”更智能”。  “更多”是指晶体管数量和运算单元的增加,其中 包括流处理器单元、纹理单元、光栅单元等数量上 升。  “更专”是指除了常规的计算单元,GPU还会增 加新的运算单元。例如,英伟达的图灵架构相较于 帕斯卡架构新增加了光追单元和张量单元,分别处 理实时光线追踪和人工智能运算。  “更智能”是指GPU的AI运算能力上升。如第三 代的张量单元相较于上代在吞吐量上提升了1倍。 英伟达伏特微架构对比安培微架构AI加速性能 英伟达GTX1080对比RTX2080 RTX 1080 RTX 2080 流处理器 2560 2944 纹理单元 160 184 光栅单元 64 64 光线追踪单元 0 46 张量单元 0 368 处理性能(单精度 GFLOPS) 8228 8920 光追运算(万亿) 0 60 英伟达安培架构提升 资料来源:英伟达白皮书,维基,英伟达官网,方正证券研究所整理
28. GPU API升级趋势:更贴近底层  综合分析微软的DirectX12、苹果的Metal2、Khronos Group的Vulkan API分别相较于前代DirectX 11、Metal、OpenGL的升级,我们认为GPU API的升级趋势是提高GPU的运行效率、增加高级语言和 显卡驱动之间的连接、优化视觉特效等。其中,提供更底层的支持:统筹高级语言、显卡驱动和底层语言 是几乎所有API升级的主要方向。  不过提供更底层的支持只是更高的帧数或更好的画质的必要非充分条件。在整个软件的开发过程中,软件 开发商需要比驱动程序和系统层更好地调度硬件资源,才能充分发挥底层API的效果。  在显示质量方面,DirectX 12 Ultimate采用当下最新的图形硬件技术,支持光线追踪、网格着色器和可 变速率着色,PC和Xbox共用同一个API,堪称次世代游戏的全新黄金标准。 非底层DirectX 11对比底层DirectX 12 高级语言(游戏引擎等) 显卡驱动 底层语言(汇编/机器码) DirectX 12 Ultimate新特性 高级语言(游戏引擎等) 显卡驱动 底层语言(汇编/机器码) 资料来源:维基,极客湾,方正证券研究所整理 着色器模型6.5 √ 光线追踪1.1版 √ 网格着色 √ 可变速率着色 √ 采样反馈 √ 资源捆绑3.0 √ 3D材质 √ 传统光栅3.0 √ 40比特虚拟地址空间 √
29. GPU制造升级趋势:以先进制程为导向  我们认为GPU性能的三大决定因素为主频、微架构、API。这些因素中主频通常是由GPU的制程决定的。  制程在过去通常表示晶体管或栅极长度等特征尺寸,不过出于营销的需要,现在的制程已经偏离了本意,因此单纯 比较纳米数没有意义。按英特尔的观点,每平方毫米内的晶体管数(百万)更能衡量制程。据此,台积电和三星的 7nm工艺更接近英特尔的10nm工艺。  先进的制程可以降低每一个晶体管的成本,提升晶体管密度,在GPU Die体积不变下实现更高的性能;先进制程可 以提升处理器的效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。  先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应 晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。 先进制程工艺之FinFET 英特尔10nm先进制程带来的性能和效能提升 资料来源:eetimes ,CNX ,方正证券研究所整理
30. GPU制造升级趋势:Chiplet化    高位宽内存(HBM)是小芯片(Chiplet)在GPU中的常见 应用。HBM是一种高速计算机存储器3D堆栈SDRAM接口 。首款HBM于2013年推出,第二代HBM2已于2016年被 JEDEC接受。目前,HBM主要应用在高端独立显卡和服务器 显卡。 HBM通过3D堆叠4个DRAM Die和1片逻辑Die组成一个 Chiplet,其中每片DRAM具有2个128位通道,通过TSV( 硅通孔)相连。所以,一片Chiplet总共8个128位通道,总 位宽1024比特。每片Chiplet又与GPU封装在同一中介层( Interposer)连接GPU芯片。相比之下,GDDR5内存的总 线宽度为32位,带有512位内存接口的显卡也只有16个通道 ,而且采用传统的FBGA封装。HBM与GDDR5相比,每GB 的表面积减少94%,每GB/S带宽的能效提升2倍多。 HBM支持最多每个Chiplet 4GB的存储,HBM2在HBM的 基础上将每片Chiplet的最大容量提升至了8GB,显存主频 提升1倍,同时总位宽保持不变。 GDDR5对比HBM 资料来源:英伟达白皮书,AMD官网,方正证券研究所整理 HBM的GPU应用 HBM先进封装结构
31. GPU制造的发展趋势:Fab+Fabless为导向      GPU制造可分为IDM和Fab+Fabless。 IDM集芯片设计、芯片制造、芯片封装和测试等多个产业链环节于一身。英特尔为IDM的代表。 Fabless只负责芯片的电路设计与销售,将生产、测试、封装等环节外包。苹果和AMD为Fabless的代表。Foundry只 负责制造,不负责芯片设计,可以同时为多家设计公司服务,但受制于公司间的竞争关系。台积电为Foundry的代表。 目前英特尔GPU落后的主要原因是GPU制程的落后,根本原因是英特尔受困于IDM运作模式。随着28纳米以下先进制 程的发展,芯片的制造成本和设计成本成指数级上升。同时,一条12英寸晶圆的生产线从建设到生产的周期约2年,投 资至少30-50亿美元,资本支出占比80%,整体风险非常大。英特尔以有限的资源不支持它持续的设计和生产的的两线 作战。 Fab+Fabless的模式通过充分发挥比较优势,分散了GPU设计和制造的风险,符合半导体分工的大趋势。 IDM与Fab+Fabless对比 CPU制造 优势 劣势 IDM • 设计和 制造协 同优化 • 规模过 大 • 成本高 • 回报率 低 Fab+Fa bless • 设计和 制造分 开,发 挥比较 优势 • 多样化 制造和 设计组 合,风 险分散 • 沟通成 本大 • 协作难 度大 芯片设计费用趋势(亿美元) 海外公司 资料来源:只谈科技,方正证券研究所整理 中国大陆公司 \
32. GPU需求概述  过去20多年里,GPU的基本需求源于视 频加速,2D/3D游戏。随后GPU运用自 身在并行处理和通用计算的优势,逐步开 拓服务器、汽车、矿机、人工智能、边缘 计算等领域的衍生需求。  虽然GPU无法离开CPU独立运作,但是在 当前“云化”加速的时代,离开了GPU的 CPU也无法胜任庞大的计算需求。所以 GPU和CPU组成了异构运算体系,从底层 经由系统软件和驱动层支持着上层的各种 应用。GPU已经成为了专用计算时代的刚 需。 GPU需求的演化 GPU对电子计算行业的底层支撑 应用层 系统软件 驱动 汽车 智能手表 军用显控 手机 游戏主机 人工智能 电脑 服务器 矿机 Windows、安卓、IOS、Linux等 硬件层 GPU 现代云计算中GPU加速的刚需 AI 通用计算 图形 科学计算 数据分析 AI深度学习 训练 边缘AI视频 分析 云游戏 基因学 经典机器 学习 AI深度学 习界面 5G私人网络 3D加速 2D加速 资料来源:英伟达白皮书,方正证券研究所整理
33. GPU供给概述    GPU的供给涉及设计、制造、封测三个主要环节,整体供给模式有IDM和Fab+Fabless两种。 IDM模式将设计、制造和封测集中在一起,代表厂商有英特尔。Fab+Fabless模式的代表有AMD设计,台积电制造,通富 微电封测;ARM阵营的苹果设计,台积电制造,日月光封测。 目前GPU的先进设计、先进制造主要被美系、韩系和中国台湾所控制。中国大陆企业华为和中芯国际遭到美国实体清单限制 ,未来发展艰难。封测方面,长电科技和通富微电已经掌握先进封测技术,已经有能力为苹果、AMD提供封测技术支持。 GPU产业链 全球GPU设计厂商 资料来源:方正证券研究所 全球GPU制造厂商 全球GPU封测厂商
34. GPU的需求侧推动:汽车GPU概述  汽车GPU的用例几乎涵盖了从ADAS到自动驾驶,从仪表到中控信息系统等多个车载系统。在实际大规模量产领域 ,基于深度学习的ADAS系统是GPU的主力战场。  不同于消费级GPU,汽车GPU需要满足诸如AEC-Q100等车规认证,快速生成冗余备份,在冗余备份中进行二次 处理,确保功能的安全执行。安全关键图形和计算能力是下一代车载系统的要求。为了提高汽车GPU的速度,实现 图形和视频流之间快速切换,汽车GPU需要专用的图形API,如Imagination专用汽车GPU的OpenGL®SC™2.0 API。通过GPU的硬件虚拟化解决方案,多屏幕、多操作和多个应用程序都能在一个GPU上运行而没有性能损失。  随着汽车的含硅量上升、功能的多样化,汽车CPU将和汽车GPU组成SoC,从分布式向中心化发展,统筹计算整车 数据。以新能源车的标杆特斯拉为例,下代HW4.0将同时集成ADAS(先进辅助驾驶)、电动汽车动力传动、车载 信息娱乐系统和车身电子四大功能。汽车GPU作为主要算力的提供方,对整个汽车行业具有决定性作用。  目前汽车GPU可以分为2派。其一,是以特斯拉为代表的“自主”派,采用类似于苹果公司的模式,自主设计芯片 ,不对外开放技术,软硬件的整合在公司内部完成。其二,是以英伟达为代表的“开放”派,采用类似于安卓的模 式,对外开放技术,服务其他车企,自己不造整车。具体模式的选择需要综合地权衡灵活性和契合度。 汽车电子工程中心化 资料来源:博世,Cypress官网,方正证券研究所整理 车载ADAS系统的GPU
35. GPU的需求侧推动:汽车GPU市场  政策方面,中国发布了《“十三五”汽车工业发展规划意见》,对智能网联汽车发展设定目标:具有驾驶 辅助功能的网联汽车当年新车渗透率达50%,有条件自动化的汽车当年新车渗透率达10%,到2020年我 国初步建立能够支撑驾驶辅助及低阶自动驾驶的网联汽车标准体系。  汽车制造商自2015年起开始整合L2自动驾驶。L2自动驾驶包括若干硬件传感器(多个摄像头、超声波和 雷达)及能够支持ADAS功能(如自适应巡航控制、车道居中控制和自动转向)的软件组合而成。  预计,在2020年全球出售的汽车中,约有8%配置L2及以上自动驾驶功能。到2025年,在全球售出的汽 车中,预计约有30%将支持L2或以上自动驾驶功能。到2030年,该比例将超过50%,届时全自动驾驶汽 车将超过50%。根据IDC预测,全球L1及以上自动驾驶汽车数量将由2019年的3140万辆,上涨至2024年 的5420万辆,5年复合增长率为11.5%。 汽车自动驾驶等级稳步上升 2020造车新势力的无人驾驶竞争格局 10月13日特斯拉签约 落户海南设立新能源汽 车创新中心项目。 10月21日,蔚来成立 独立硬件团队,内部叫 做“Smart HW (hardware)” 10月20日,小鹏汽 车第10000量P7正 式下线。 资料来源:IDC,西部数据公司,新浪汽车,易车,方正证券研究所整理
36. 汽车GPU需求—特斯拉FSD  2019年特斯拉发布了自研芯片Tesla FSD (全自主驾驶),通过了AEC-Q100车规 级认证,支持L3级别的自动驾驶。FSD采 用了三星14纳米FinFET工艺。一块自动驾 驶电路板会集成两颗FSD芯片,执行双神 经网络处理器冗余模式,两颗处理器相互 独立,即便一个出问题另一个也能照常执 行。  特斯拉FSD的GPU采用ARM Mali内核的 G71 MP12。FSD的GPU运行在1GHz, 可以提供600 GFLOPS的浮点算力。FSD 的GPU主要被设计用于轻度后期运算,支 持单精度和双精度浮点操作。与GPU配套 的是内存是双通道64比特LPDDR4-4266 内存,最大带宽63.58GB/S。  特斯拉FSD的算力主要由NPU提供,每颗 NPU有一个96*96的MAC矩阵,单颗 NPU工作在2GHz,算力最高达36.86 TOPS,远超GPU。  特斯拉与博通合作开发新一代的HW4.0 硬件,将采用台积电7nm工艺生产,它将 被用于多种功能,包括Autopilot、自动 驾驶以及信息娱乐功能。 资料来源:维基,方正证券研究所整理 特斯拉FSD示意图 特斯拉FSD内核
37. 汽车GPU需求—英伟达Xavier  NVIDIA DRIVE™AGX嵌入式超级计算平台处理来自摄像头,雷达和激光雷达传感器的数据 ,来感知周围环境,将汽车定位在地图上,并规划和执行安全的前进路线。该AI平台以紧凑 ,节能的包装支持自动驾驶、车内功能、驾驶员监控、其他安全功能。  NVIDIA DRIVE AGX Xavier™可以为2级、3级自动驾驶带来每秒30万亿次的运算。  DRIVE AGX Xavier包含6种不同的SoC,它们包括CPU、GPU、深度学习加速器(DLA)、 可编程视觉加速器(PVA)、影像信号处理器(ISP)、立体/光学流加速器。 英伟达Xavier内核 资料来源: NVIDIA,Wccftech,方正证券研究所整理 英伟达Xavier参数 核心 8-core “Carmel” CPUs based on ARM v8 ISA 深度学习 加速器 5 TOPS (FP16) | 10 TOPS (INT8) GPU 20 TOPS (INT8) | 1.3 TFLOPS (FP32) 可编程视 觉加速器 1.6 TOPS ISP 1.5 Gigapixels/s 内存带宽 136 GB/s 相机I/O 90 Gb/s over 16x GMSL(R) ports TDP 30 W
38. 汽车GPU需求—蔚来ADAM超算平台  蔚来自动驾驶NAD(NIO Autonomous Driving)包括AQUILA蔚来超感系统和ADAM蔚来超算平台 。蔚来AQULIA每秒产生8GB图像数据,庞大是数据量需要超强算力的“大脑”处理、解决。蔚来“电车 之脑”ADAM拥有超级图像处理流水线、超高带宽骨干数据网络、搭载4颗NVIDIA Drive Orin芯片, 算力高达1016Tops,超过7个特斯拉FSD运算总和。每颗Orin SoC拥有170亿晶体管,整合了安培GPU 和“大力神”ARM CPU,计算能力是前代Xavier SoC的近7倍,支持L2-L5的自动驾驶。  ADAM超算四颗主控芯片中的两颗用于实现NAD的全栈计算,包括多方案相互校验的感知、多源组合定 位、多膜态预测和决策。第三颗主控为独立的冗余备份芯片,确保超算平台的安全。第四颗主控芯片专 注于群体智能和个性训练,加快NAD的总体进化速度。 英伟达Drive AGX Orin 资料来源:蔚来官网,英伟达官网,方正证券研究所整理 蔚来ADAM超算平台
39. GPU的需求侧推动:服务器GPU概述  服务器GPU,即在服务器中使用的GPU,它从底层支持着整个服务器产业链。服务器GPU被广泛应用于AI 、数据分析、高性能计算与渲染等领域。不过服务器是网络中的重要设备,要接受少至几十人、多至成千 上万人的访问,因此对服务器GPU具有大数据量的快速吞吐、超强的稳定性、长时间运行等严格要求。  在AI服务器领域,相较于其他运算单元,服务器GPU因较高的可编程性和不错的通用性能,被用作特定应 用处理器(ASP),部署在云端、办公室、数据中心、边缘计算。  目前,主要的服务器GPU解决方案有英伟达的DGX、EGX、HGX等平台;AMD的Instinct M100 GPU 解决方案。这些服务器GPU被广泛用于戴尔、惠普、技嘉、超微的服务器产品。 不同类型AI服务器比较 服务器产业链 通用处理器 CPU 特定应用处 理器 GPU 可配置硬件 FPGA 应用层 云计算、大数据、人工智能、(移动互 联网、物联网 基础设施 传统数据中心、云计算数据中心 基础软件 协处理器 TPU 特定应用集 成电路 ASIC 性能 资料来源:中国产业信息,架构师技术联盟,方正证券研究所整理 操作系统、虚拟化、数据 库、HCI SDN、 NFV 硬件层 服务器 存储阵列 网络设备 路由器、 交换机 芯片层 计算芯片 CPU、 GPU 存储介质 HDD、SSD、 DRAM 基础软件 光电芯片
40. GPU的需求侧推动:服务器GPU  一台服务器中有多个GPU,这些服务器GPU通过高速总线互联。服务器GPU按总线接口可以分为NV- Link接口和传统PCIe总线接口两种。NV-Link是英伟达的专属总线,而PCIe相对开源和标准。  第三代NV-Link的总带宽达到600GB/S,每个GPU最多12条链路,几乎是PCIe 4.0带宽的10倍。多个 NV-Link可以进行整合,形成NV-Switch,在单个节点内以NV-Link的较高速度实现多对多的GPU通信。 采用NV-Link接口的GPU主要有英伟达V100和A100。NV-Link总线标准的GPU服务器可以分为英伟达 的DGX、EGX、HGX,和英伟达生态合作伙伴设计的NV-Link接口的服务器。  传统的PCIe总线服务器可以分为OEM服务器,如曙光、浪潮、华为等其他国际品牌;另一类是非OEM 服务器。AMD的服务器GPU主要采用PCIe接口,如Radeon的Instinct系列。 英伟达HGX平台8路GPU 资料来源:英伟达官网,快科技,方正证券研究所整理 AMD Instinct服务器GPU
41. GPU的需求侧推动:服务器GPU市场格局  2019年人工智能基础架构市场规模达到20.9亿美元,同比增长58.7%,其中GPU服务器占据96.1%的市 场份额。据IDC预测,到2024年中国GPU服务器市场规模将达到64亿美元。  从厂商角度看,浪潮、华为和曙光依然稳居前三位,占据了74%以上的市场份额。  从行业角度看,互联网依然为主要行业,占有近50%的市场份额,并且最终用户也不仅仅局限于BAT这类 大型互联网公司;服务和政府行业次之,分别占有18.4%和16.9%市场份额。其中服务、教育、金融和制 造四个行业在2019年中出现了大幅度上涨。  从服务器配置的角度看,可搭载8片加速卡的服务器更为主流,占有40%以上的市场份额;2路服务器依 然是最终用户的首选,占有近80%的市场份额。  从工作负载角度看,用于推理的服务器在2019年占有40%以上的市场份额。IDC预测,到2021年,用于 推理的服务器将超过用于训练的服务器,达到51.3%的市场占比。 2019年中国加速服务器市场厂商市场份额 3.10% 亿美元 8.27% 3.20% 3.60% 3.90% 3.90% 50.70% 4.90% 18.40% 中国GPU服务器市场规模演化 浪潮 华为 曙光 宝德 安擎 新华三 戴尔 联想 其他 13.05 2018 资料来源:IDC,GNS Components,方正证券研究所整理 64 2019 2020 2021 2022 2023 2024
42. GPU的需求侧推动:拆解安卓手机GPU  智能手机由于空间和能效的限制,无法将GPU单独列出,所以手机处理器常被称为SoC(System On Chip,片上系统)。手机SoC一般同时集成了CPU、GPU、基带、ISP、DSP、NPU、其他各相关部件。  手机SoC对先进制程和先进封装非常看重,如高通骁龙865处理器使用台积电的7nm制程和SIP先进封装 来有效提升手机芯片的晶体管密度和性能表现。  2020年高通骁龙865的Adreno650为高通自研GPU。Adreno650相较于前代Adreno640性能提升25% ,支持全新高通精英游戏特色,包括桌面预渲染、游戏显色增强和可更新移动GPU驱动。Adreno650兼 容API为OpenCL™ 2.0 FP, Vulkan® 1.1, OpenGL® ES 3.2, DX12。Adreno650可以带来桌面级的图像 质量和先进的定制化特性。在VR视频领域,Adreno支持8K 360度全景播放。骁龙865SoC首次支持 LPDDR 5 RAM,在电压和功耗下降的前提下,相较于前代LPDDR 4X在带宽上提升28%。 三星S20 Ultra GPU拆解 骁龙865 SOC 内部解析 威讯联合: 前端模组 高通骁龙 865+12GB LPDDR5 RAM 高通: X55 5G模组 三星: UFS 3.0 闪存 高通: 功率放大模组 资料来源:维基,ifixit ,方正证券研究所整理
43. GPU的需求侧推动:拆解苹果iPad GPU  平板电脑与智能手机相似,处理器常被称为SoC(System On Chip,片上系统)。平板SoC一般 同时集成了CPU、GPU、ISP、DSP、NPU、其他各相关部件。不过平板的空间不如手机局促,而 且平板对处理器的性能有更高的要求,通常会配备更多的PMIC(电源控制器),如iPad Pro系列 的A12X芯片。  平板SoC对先进制程和先进封装非常看重,如苹果A14处理器率先使用台积电的5nm制程和SIP先 进封装来集成118亿晶体管,晶体管密度达到1.34亿个每平方毫米,有效提升性能表现。  苹果A14的GPU为自研第三代四核GPU,其性能相较于A12的四核GPU提升了30%,可以随时渲 染三维物体或畅玩高帧率游戏。在GFXBench的跑分测试中,苹果A14在GPU方面领先骁龙888和 麒麟9000。 苹果A14芯片拆解 USB Type-C 苹果A14芯片Die 苹果 A14+4GB RAM 基带电源控 制器 64 GB NAND USB 3.0 控制器 前端控制 模组 调制 解调 器 前端 控制 模组 包络 追踪 器 电源控制 器 前端控制 模组 电源控制器 电源控制器 WIFI&蓝牙 控制器 射频接收 器 资料来源: Extremetech,Unitedlex ,方正证券研究所整理 低噪放大器
44. GPU的需求侧推动:手机、平板的GPU发展  纵观全球智能手机和平板市场,智能手机的出货量在 12亿部以上,是同期平板出货量的8倍以上。  随着移动通讯进入5G时代及5G技术的亲民化,5G手 机的换机将带动整个手机市场复苏。预计未来5年手 机的出货量将保持1.7%的同比增长,2024年出货量 将超过14亿部。  全球智能手机CPU基本全部采用ARM指令集。截至 2020Q3,联发科和高通是最主要的手机SoC供应商 ,市场份额分别为31%和29%。  截至2020Q2,全球平板电脑的SoC大部分采用ARM 指令集,占比超过50%,还有部份使用Windows系 统追求高性能的平板采用英特尔的X86处理器,占比 18%。 全球智能手机出货量和平均售价预测 2020 Q3手机处理器份额 2020 Q2平板应用处理器份额 资料来源:IDC,Strategy Analytics,Counterpoint,方正证券研究所整理
45. GPU的需求侧推动:拆解游戏主机GPU   游戏主机的设计思路完全不同于PC。通常每个世代游戏主机的核心部件如CPU、GPU、DRAM等硬件的性能指标是不变的 ,而且主机存在成本控制、体积、12V供电等物理限制因素,所以游戏主机的硬件性能不会领先于同期高端桌面处理器。游 戏主机的画质、音效、操控等实际体验非常看重开发人员对CPU、GPU等硬件优化和底层API等软件优化。 在上述一系列限制因素的共同作用下,同时集成了较高性能CPU和GPU的AMD定制化“APU”成为了索尼和微软的首选, 而任天堂的Switch采用英伟达的Tegra芯片。以索尼PS5为例,它的GPU搭载了以RDNA2微架构为基础的36组运算单元和 Zen2 CPU共用16GB GDDR6 DRAM,主频最高2.23GHz,可以提供10.3TFLOPS的算力,是前代PS4的5.6倍。在索尼独家 Game boost、GNM底层API和GNMX高级API等技术支持下,兼容前代PS4和PS4 Pro的游戏,支持光线追踪、4K 120赫 兹HDR游戏、8K显示。 索尼PS5拆解 微软Xbox Series X拆解 BiCS闪存 美光 GDDR6 DRAM SSD控制器 东芝内存 AMD定制8核 Zen2 CPU和 RDNA2 GPU 电源模块 MOSFET 索尼互动娱乐 和AMD定制 CPU+GPU 资料来源:ifixit,方正证券研究所整理
46. GPU的需求侧推动:游戏主机GPU市场     目前游戏主机市场主要由索尼的PS系列、微软的Xbox系 列、任天堂的Switch系列组成。其中,索尼和微软主打家 用游戏机平台,而任天堂布局移动跨界游戏机。 2020全球主机市场预计营收512亿美元,同比增长21% 。游戏主机市场在营收总量和同比增速方面都落后于移动 游戏市场。我们认为,随着智能手机的发展,全球游戏主 机市场将进一步逐渐萎缩。 面对移动端的侵蚀,传统游戏主机厂商逐渐由实体游戏卡 带、光盘等介质向数字化和云化转型,如微软的Xbox Game Pass(XGP)订阅服务。 2020年全球游戏市场预计营收1749亿美元,预计2023 年将达到2179亿美元,年复合增速近8%。 2020全球游戏市场拆分 全球游戏市场收入趋势 亿美元 2179 1749 2020 2021 2022 2023 2020全球游戏主机销售数量份额 移动 1% 9% 平板游戏 智能手机 游戏 在线PC游戏 29% 离线PC 游戏 游戏主机 资料来源:Statista,Newzoo,方正证券研究所整理 62% PS4 Switch Xbox 3DS
47. GPU的需求侧推动:拆解PC的GPU  PC GPU主要分为集成GPU和独立GPU。目前,大部分集成GPU已经和CPU被设计为一颗SoC,二者通过 SoC内部的高速总线实现互联,而独立GPU多采用PCIe总线与CPU实时通讯。当前,集成GPU主要由英 特尔和AMD提供,独立GPU主要由AMD和NVIDIA提供。  PC的GPU需求不同于追求多路互联和“交火”的服务器GPU,不同于追求高度稳定的汽车GPU,不同于 追求省电和小体积的手机/平板GPU。PC的GPU需要在性能、拓展性、能效方面做到平衡。拥有先进制程 和封装,TDP(热设计功耗)15-25W的集成GPU或独立GPU可以满足轻薄笔记本电脑的图形需求,TDP 25-150W 的独立GPU可以满足游戏本的图形需求,TDP75-320W的独立GPU可以满足台式的图形需求。  2020年英特尔在其架构日中首次推出Xe GPU架构。Xe微架构可以满足从集成/入门图形需求到数据中心 和高性能计算的需求。Xe的推出标志着英特尔向高性能独立显卡领域的扩张。 英特尔Skylake的Die 资料来源:techpowerup,方正证券研究所整理 AMD RX 6900拆解
48. GPU的需求侧推动:PC GPU市场  据Gartner统计,2020Q3全球PC出货量达到7140 万台,同比增长3.6%,主要是由疫情造成的居家娱乐 、工作和学习推动。  根据IDC,2020年PC出货量接近3亿台,未来5年的 PC出货量将长期稳定在此水平。  整体来看,在PC GPU市场领域,英特尔凭借CPU中 核芯显卡的优势,占据64%的市场份额,而NVIDIA 和AMD分别占有19%和18%的份额。  在全部独立GPU市场中,NVIDIA和AMD分别占有 80%和20%的份额;在台式独立GPU市场中, NVIDIA和AMD分别占有78%和22%的份额。 NVIDIA相较于AMD在独显市场占有垄断优势。 PC市场增速预测 2020 Q2全部PC GPU出货量市场份额 18% 英特尔 英伟达 19% 64% AMD 2020 Q2台式独立GPU出货量市场份额 22% NVIDIA AMD 78% 资料来源:IDC,3DCenter,cnbeta,方正证券研究所整理
49. GPU的供给—台积电  台积电公司目前在中国台湾本土拥有四座十二寸超大晶圆厂、四座八寸晶圆厂和一座六寸晶圆厂,并拥有海外 子公司:台积电(南京)、WaferTech美国子公司、台积电(中国)。其中台积电(中国)和WaferTech美国 子公司均设有1座8寸晶圆厂。其中于2016年成立的台积电(南京)有限公司,下设有一座12寸晶圆厂以及一 个设计服务中心。  2020年,台积电规划生产1200-1300万片的12寸晶圆产能,其中先进制程所占收入超过60%。桌面、笔记本 、服务器、游戏主机等高性能GPU属于高性能计算类(HPC),手机、平板GPU属于智能手机类( Smartphone)。英伟达、AMD、苹果都是台积电在GPU生产领域的大客户。  受疫情影响,导致自动驾驶、消费电子设备需求的下滑,台积电28纳米、40/45纳米的产能利用率有所下滑, 5纳米制程的产能利用率保持在85%-90%之间。 2020 Q4台积电收入的制程划分 资料来源:台积电公告,方正证券研究所整理 2020 Q4台积电收入的平台划分
50. GPU的供给—三星电子    三星电子晶圆代工的全栈先进工艺包括28/18纳米FD-SOI,14/11/10/8/7/5/4纳米 FinFET,7/5/4纳米EUV,3纳米 GAA和其他特定科技。除了先进制造,三星还掌握2.5D中介层、PoP、TSV、SIP等先进3D封装。 2014年之前,苹果和三星一直维持着合作关系,从iPhone的A1 SoC开始到iPhone6s系列的A9处理器,除了A8 SoC之外 ,都可见到三星电子的身影。除了苹果A系列处理器外,三星也代工自己的Exynos系列SoC,部份联发科SoC如天玑1000, 和部份高通骁龙SoC,如骁龙820,骁龙835,骁龙845,骁龙888。 除了手机领域,三星也在代工高性能独立GPU,如NVIDIA的RTX3000系列使用了三星的8纳米工艺。 三星全球晶圆厂分布 资料来源:三星,方正证券研究所整理
51. GPU的供给—格罗方德  格罗方德最初由AMD拆分而来,目前拥有5家200毫米和5家300毫米晶圆厂,覆盖了主要成熟制程和部 份先进制程,其中位于德累斯顿、新加坡、纽约的晶圆厂有能力生产300毫米晶圆,弗里蒙特厂主要生产 200毫米晶圆。格罗方德总产能达到770万片/月。  格罗方德同时拥有FinFET和FDSOI两条技术路线。对于FinFET,格罗方德拥有14纳米和12纳米两种节点 。在FDSOI方面,格罗方德拥有22纳米FDSOI工艺,性能和功耗堪比FinFET,但成本与28纳米相当。  在过去10年里,AMD的非7纳米及以下GPU主要是由格罗方德生产的,如采用12纳米FinFET的RX590和 14纳米FinFET的Vega显卡。 格罗方德全球工艺节点分布 资料来源:格罗方德官网,方正证券研究所整理
52. GPU的供给—英特尔  英特尔在全球有九家制造厂,其中有六家晶圆厂、三家组装测试厂。英特尔主要的逻辑晶圆厂位于美国 ,其中在俄勒冈、亚利桑那、以色列的晶圆厂有生产10纳米晶圆的能力。2019年英特尔用20%的营收投 资14纳米和10纳米的晶圆产能,预计2020年PC方面的晶圆供给会同比增加25%。  不过近年来,英特尔在制程节点的落后(7纳米宣布推迟至2022年)、10纳米和14纳米先进产能的不足 ,英特尔可能在2021将18万个晶圆的代工交给台积电负责,使用台积电的6纳米工艺。 2020英特尔全球产业链地图 俄勒冈 亚利桑那 新墨西哥 哥斯达黎加 爱尔兰 以色列 成都 马来西亚 英特尔全球 总部 晶圆厂 资料来源:英特尔公告,方正证券研究所整理 测试 封测 存在英特尔 越南 大连
53. 目录 一、GPU投资逻辑框架 二、详解GPU:专用计算时代的“画师” 三、知己知彼:GPU的全球格局与行业龙头 GPU市场规模和格局:寡头垄断下的高增长 GPU三寡头:NVIDIA,AMD,英特尔 GPU IP巨头:ARM,Imagination 移动GPU:高通Adreno、苹果A系列 四、国产GPU自主之路:详解国产GPU
54. 全球GPU市场规模和各子市场趋势  2020年全球GPU市场价值预计为254.1亿美元,预计2027年将达到1853.1亿美元,年平均增速为32.82%。  按GPU的类型进行划分,市场可以细分为独立、集成和混合。2019年,集成GPU占GPU市场的主导地位,但是由 于混合GPU同时拥有集成和专用GPU的能力,所以混合细分市场预计实现最高复合增长率。  按GPU的设备进行划分,市场可细分为计算机、平板电脑、智能手机、游戏机、电视、其他。就收入而言,智能手 机细分市场占比最大,在未来也将保持这一趋势。但是,由于医疗等其他设备中对小型GPU的需求不断增加,预计 未来的年复合增长率将最高。  按GPU的行业进行划分,市场可细分为电子、IT与电信、国防与情报、媒体与娱乐、汽车、其他。由于GPU在设计 和工程应用中的广泛使用,预计汽车细分行业的年复合增长率最高。  按GPU的地理区域划分,市场可细分为北美、欧洲、亚太和其他地区。亚太地区在2019年主导了全球GPU市场, 预计在整个预测期内将保持主导地位。 全球GPU市场规模预测 1853.1 亿美元 2015-2025全球前三GPU供应商营收总和 400 35% 350 30% 300 25% 250 20% 200 15% 150 10% 100 254.1 50 5% 0 0% 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 2020 2021 2022 2023 2024 2025 资料来源:VMR,T4ai,方正证券研究所整理 2026 2027 全球前三GPU供应商收入总和(亿美元) 同比
55. 全球GPU市场竞争格局  全球GPU已经进入了寡头垄断的格局。在传统GPU市场中,排名前三的Nvidia、AMD、Intel 的营收几乎可以代表整个GPU行业收入。英伟达的收入占56%、AMD占26%、英特尔占18% 。  在手机和平板GPU方面,联发科、海思麒麟、三星Exynos的GPU设计主要基于公版ARM Mali GPU或PowerVR微架构。高通骁龙Adreno和苹果A系列采用自研GPU微架构。  2019Q2,ARM、高通、苹果、Imagination科技、英特尔是全球智能手机和平板的前五大 GPU供应商。同期ARM Mali在以上五大GPU供应商中占43%的市场份额,高通Adreno占36% 的份额,苹果占12%的份额。 2019前三家GPU供应商收入份额对比 2019 Q2手机和平板GPU供应商份额 9% 18% 12% 43% Nvidia Adreno 苹果 AMD 26% 56% Intel 其他 36% 资料来源:T4ai,telecomled,方正证券研究所整理 Mali
56. 全球GPU龙头:英伟达概述    英伟达公司成立于1993年,于1999年率先推出“GPU”的图形解决 方案。公司主要设计游戏和专业市场的GPU,移动计算和自动驾驶汽 车的SoC,是GPU计算领域公认的全球领导者。它主要的GPU产线 “GeForce”和AMD的“Radeon”形成直接竞争。同时,英伟达为 了拓展移动游戏平台,推出了掌机Shield、Shield平板、Shield电视 盒子和云游戏服务GeForce Now。目前,公司已经完成了由芯片供应 商向计算平台的转型。 英伟达的四大增长驱动力分别是游戏业务、数据中心业务、专业视觉 业务、自动驾驶业务,各业务的代表性GPU方案分别是GeForce, DGX、EGX、HGX,Quadro、AGX。 英伟达2021财年营收167亿美元,其中游戏、数据中心、专业视觉、 自动驾驶业务在2020财年分别贡献了营收的47%、40%、6%、3% 。公司继2014年毛利率突破50%后,于2021财年毛利率突破60%。 英伟达2021财年的业务构成 4% 6% 3% 游戏 数据中心 47% 40% 专业视觉 汽车 OEM/其他 英伟达的主要增长驱动力 游戏 AI 资料来源:英伟达公告,方正证券研究所整理 AR/VR 自动驾驶车
57. 全球GPU龙头:英伟达游戏业务    英伟达的游戏业务由GeForce和Shield组成。其中Shield面向 移动端和云,GeForce面向PC。游戏笔记本和云游戏是公司拓 展市场的2大方向。GeForce是英伟达游戏业务的核心。 GeForce是全球最大的游戏平台,拥有超过2亿名玩家。在PC游 戏领域,英伟达的营收是其他主要GPU供应商的三倍多。 GeForce已经来到了RTX30系列,采用第二代NVIDIA RTX架构- NVIDIA安培架构,搭载全新的RT Core、Tensor Core及流式多 处理器,拥有RTX游戏、DLSS、G-SYNC、DirectX12等先进技 术,可带来逼真的光线追踪效果和先进的AI性能。 除了PC游戏市场,英伟达也向合作伙伴--任天堂Switch主机提 供定制版Tegra SoC。作为合作的一部分,Shield主机可以畅享 任天堂的游戏,GameStream串流游戏和热门游戏,实现4K HDR画质,支持百度DuerOS对话式人工智能。 英伟达游戏营收趋势 英伟达GeForce平台 90 50% 80 40% 70 30% 60 50 20% 40 10% 30 0% 20 -10% 10 0 -20% FY17 FY18 英伟达Shield平台 FY19 游戏营收(亿美元) FY20 FY21 同比 资料来源:英伟达,Amazon,方正证券研究所整理
58. 全球GPU龙头:英伟达数据中心业务  英伟达的数据中心业务的技术根源是 CUDA(统一计算设备架构)。CUDA 首次推出于2006年的G80核心,隶属于 通用并行计算架构,创造了GPGPU。 在“安培”时代,CUDA核心已经进化 到了8.0,被运用在几乎所有的英伟达 产品线。  CUDA兼容DirectCompute、 OpenCL等计算接口。与Direct3D、 OpenGL等高级图形API相比,CUDA 可以使开发者更容易使用GPU资源。  当前,CUDA在广义上既代表GPU的硬 件平台又代表GPU的软件平台。  在硬件平台方面,CUDA包含了CUDA 指令集以及GPU内部的并行计算引擎。 GPU平台的矢量运算如INT、FP32、 FP64都由CUDA承担。开发人员可以使 用C语言和Fortran语言为CUDA编写程 序。  在软件平台方面,基于CUDA的 CUDA-X加速库、工具和科技集合,向 上对接不同的行业应用需求。在英伟达 的软件栈体系中,分为CUDA-X AI和 CUDA-X HPC,分别面向AI和HPC两 大领域,可以在人工智能和高性能计算 方面提供远超其他竞品的性能。 CUDA-X的开发者已经超过100万。 资料来源:英伟达官网,方正证券研究所整理 英伟达CUDA-X HPC 英伟达CUDA-X AI
59. 全球GPU龙头:英伟达数据中心业务  英伟达数据中心的产品包括适用于AI的DGX系统, 适用于边缘计算的EGX平台,适用于超算的HGX平 台、适用于数据处理的DPU、简化深度学习,机器 学习,高性能计算的NGC目录。相关的GPU加速器 有采用安培架构的A100、A40,采用图灵架构的T4 、RTX6000、RTX8000,采用伏特架构的V100。  过去5个财年中,英伟达数据中心的营收从8.3亿美 元上升至66.96亿美元,年复合增速69%。同时, 公司的注册开发者超过200万,与主要的云供应商 如谷歌、腾讯、阿里建立了供应关系,世界500强 超算中的份额从6%上升至70%。 英伟达数据中心营收趋势 英伟达主要云合作伙伴 英伟达在超算500强中份额 80 140% 80% 70 120% 70% 60 100% 50 80% 40 60% 30 60% 50% 40% 30% 40% 20% 10 20% 10% 0 0% 0% 20 FY17 FY18 FY19 营收(亿美元) FY20 FY21 同比 资料来源:英伟达公告,方正证券研究所整理 SC16 SC17 SC18 份额 SC19 SC20
60. 全球GPU龙头:英伟达专业视觉业务  英伟达专业视觉业务主要由Quadro产品线组成。 Quadro在GeForce的基础上加强了NVLink、GPU的通 用计算性能和显存容量,拥有Iray、Omniverse平台、 材质定义语言等特有技术。  Quadro被广泛应用在台式工作站、笔记本电脑、EGX 服务器、虚拟工作空间、云端、定制化方案中。英伟达 Quadro方案有超过50种应用、4000万设计用户和2000 万企业用户,并正在不断解锁新市场。  在过去的5个财年,英伟达专业视觉的营收从8.35亿美 元上升至10.53亿美元,年复合增速6%。 英伟达专业视觉营收趋势 英伟达专业视觉方案 14 25% 12 20% 15% 10 10% 8 5% 6 0% 4 -5% 2 -10% 0 -15% FY17 FY18 FY19 英伟达专业视觉GPU加速合作伙伴 FY20 营收(亿美元) 资料来源:英伟达,方正证券研究所整理 同比 FY21
61. 全球GPU龙头:英伟达汽车业务     英伟达自动驾驶实验室 英伟达的汽车产品包括相关驾驶软件、驾驶基础设计、AGX平 台,提供训练、模拟、智能驾驶舱体验、高清地图和定位等解 决方案。 在绝对性能方面,搭载4颗Drive AGX Origin的蔚来ADAM超 算平台支持L4以上自动驾驶,超过7个特斯拉FSD算力总和。 不同于特斯拉自动驾驶追求软硬件的高度契合,英伟达的方案 更追求开放性。公司在汽车领域的合作伙伴以软件服务和轿车 居多,分别达到了76家和42家。同时,公司与大众、丰田、本 田、奔驰、宝马、奥迪、沃尔沃、马牌、滴滴、采埃孚、蔚来 、小鹏、图森等世界知名公司建立了强力的生态。 在过去的5个财年,英伟达自动驾驶的营收从4.87亿美元上升 至5.36亿美元,年复合增速3%。 英伟达自动驾驶营收趋势 英伟达自动驾驶合作伙伴分布数 8 20% 80 7 15% 70 10% 6 5% 60 50 5 0% 4 -5% 40 3 -10% 30 -15% 20 -20% 10 2 1 -25% 0 -30% FY17 FY18 FY19 营收(亿美元) FY20 同比 资料来源:英伟达,方正证券研究所整理 FY21 0
62. 全球GPU龙头:英伟达并购ARM        2020年9月13日,NVIDIA宣布以400亿美元收购ARM。本次收购意义可以细分为以下5个方面。 1. 创造AI时代的世界级计算公司,将英伟达领先的AI计算平台和ARM庞大的CPU生态相结合。 2. 通过英伟达在移动端和PC等大型终端市场的科技拓展ARM的IP授权组合。 3. 加速ARM的服务器CPU、数据中心、边缘AI、IoT发展。 4. 将英伟达计算平台的开发者由200万提升至超过1500万。 5. 并购可以立即增加英伟达的非GAAP毛利率和非GAAP每股收益。 合并后的英伟达将把计算从云、智能手机、PC、自动驾驶车和机器人技术推进到了边缘物联网,将AI计算拓展到 全球,在拓展大规模、高增长市场的同时加速创新。 英伟达从云到边缘 IoP 云数据中心 数以千计的数据中心 每个中心有百万计的节点 资料来源:英伟达公告,方正证券研究所整理 IoT 边缘数据中心 百万计的边缘数据中心 每个中心有千计计的节点
63. 全球GPU先驱:AMD  AMD是全球唯一可以同时提供高性能GPU和CPU的企业 。AMD的显卡来源于2006年并购的ATI科技。在这之后 的4年中,AMD继续使用ATI作为显卡品牌。直到2010年 ,AMD才抛弃原ATI的品牌命名方式。  目前,AMD同时提供独立GPU和集成GPU,其集成GPU 主要运用在Ryzen APU、嵌入式、半定制平台中,独立 GPU分为Radeon和Instinct系列,主要用于游戏、专业 视觉、服务器等应用。  过去六年,AMD的计算和图形收入的营收由18.05亿美 元上升至64.32亿美元,年复合增速29%。  未来五年,AMD计划成为高性能计算的领导者,提供颠 覆性的CPU和GPU方案。 AMD计算和图形部门营收 70 60 50 40 30 20 10 0 60% 50% 40% 30% 20% 10% 0% 2015 2016 2017 2018 2019 计算和图形部门收入(亿美元) 2020 同比 AMD GPU的聚焦领域 PC 苹果Mac 资料来源:AMD公告,方正证券研究所整理 游戏主机 云 移动 超算
64. 全球GPU先驱:AMD集成GPU AMD “RENIOR”APU  AMD的集成GPU主要被运用在台式机和笔记本的APU产品中 ,和CPU组成异构运算单元。台式和笔记本APU的GPU部份 共用微架构和核心技术,二者GPU的主要差异在于TDP和处理 单元的数量,台式强于笔记本。  “Renior”APU的GPU继续使用Vega微架构,但受益于7纳 米制程,每个处理单元效能显著提升。  7纳米Vega的提升包括:数据网络翻倍、优化低功耗状态转换 、25%主频提升、77%存储位宽提升。这些提升带来了在保 持15W功耗不变的前提下,每个计算单元59%的性能提升、 1.79TFLOPS的32位浮点峰值吞吐。  在3DMark Time Spy(DX12)的跑分中,7纳米的Ryzen 4800U的GPU表现超过10纳米i7-1065G7,是14纳米i7- 10710U的2倍以上。 AMD “RENIOR”APU内核解析 AMD “RENIOR”APU跑分对比 1400 1200 1000 800 600 400 200 0 i7-10510U i7-10710U i7-1065G7 Ryzen 4700U 3DMark Time Spy跑分 资料来源:Xfastest,notebookcheck,方正证券研究所整理 Ryzen 4800U
65. 全球GPU先驱:AMD游戏独立GPU  AMD的Radeon系列游戏独立GPU 按微架构推出时间依次递减可以分为 RX6000系列、RX5000系列、 Radeon 7、 RX500系列。以上四大 系列中,除RX500系列外均采用台积 电7纳米制程。  2020年11月推出的RDNA2微架构 相较于前代RDNA绝对性能最高提升 一倍,能效提高54%,支持DirectX 12 Ultimate,硬件光线追踪和可变 速率着色器等先进技术。搭载16GB GDDR6显存和128MB Infinity Cache高速缓存的RX 6900XT的游戏 性能接近英伟达的RTX 3090。  为了发挥AMD CPU和GPU的协同效 应,Radeon拥有AMD Smart Access Memory技术,锐龙CPU和 显卡之间能实现更出色的通信。RX 6800系列显卡在部分游戏中4K画质 性能额外提升最高可达7%。  2022年前,AMD将基于更先进的制 程打造RDNA3微架构,进一步强化 光追等计算表现。  除了传统的BGA显存封装,AMD还 积极运用HBM系列显存。在Radeon 7中,16GB的HBM2显存拥有1TB/S 的带宽,超过同期Titan RTX 50%。 资料来源:AMD,方正证券研究所整理 AMD独立游戏GPU路线图 AMD独立游戏GPU产品线
66. 全球GPU先驱:AMD数据中心GPU  AMD的数据中心GPU业务由Radeon Instinct加速器系列 、以客户为核心的数据中心解决方案和ROCm组成。AMD 的主要合作伙伴包括戴尔、惠普等OEM,同时AMD也向微 软AZURE和亚马逊网络服务提供视觉云解决方案。  ROCm是全球首个针对加速式计算且不限定编程语言的超 大规模开源平台,遵循UNIX的选择哲学、极简主义以及针 对GPU计算的模块化软件开发。  ROCm适合大规模计算,支持多路GPU,有丰富的系统运 行库,包括框架、库、编程模型、互联和Linux Kernel上游 支持,提供各种重要功能来支持大规模应用、编译器和语 言运行库的开发。  AMD正与美国能源部、橡树岭国家实验室和Cray公司合作 ,使用EPYC(霄龙)CPU、Radeon Instinct GPU和 ROCm打造超过150亿亿次FLOPS的全球最快超算平台。 AMD数据中心GPU产品线 资料来源:AMD,方正证券研究所整理 AMD ROCm开源软件生态 应用 集群部署 工具 移动框架 数学库 拓展通用库 编程模型 处理器
67. 全球GPU先驱:AMD数据中心GPU  Radeon Instinct MI 100加速器采用专注计算的CDNA微架 构,在计算和连接方面实现了巨大飞跃,与AMD上一代加速 器相比,高性能计算工作负载(FP32矩阵)性能提升近3.5倍 ,而人工智能工作负载(FP16)性能提升近7倍。Instinct MI 100在FP32和FP64的峰值TFLOPS中超越了同期英伟达安 培A100,同时功耗比后者低100瓦。  为了满足多路GPU的互联通讯需求,AMD研发了Infinity Fabric技术。Infinity Fabric拥有先进的平台连接性和可拓展 性,最多支持4路GPU互联。P2P带宽是PCIe 4.0的2倍,四 GPU集群的P2P带宽最高可达552GB/s。  未来,AMD将基于更先进的制程打造CDNA2微架构,进入 百亿亿级时代。 AMD数据中心GPU路线图 资料来源:AMD,方正证券研究所整理 Instinct MI 100与安培A100对比 25 20 15 10 5 0 FP32 Instinct MI 100 (300W) FP64 Ampere A100 (400W) AMD Infinity Fabric互联
68. 全球GPU先驱:AMD其他独立GPU  AMD的其他独立GPU主要包括嵌入式、半定制化、Radeon Pro工作站显卡。  半定制化独立显卡主要倍运用在索尼、微软的本世代和次世代主机中。如今,AMD的技术存在于2.2亿个 家庭畅享游戏和视频娱乐时所用设备的核心。  嵌入式GPU的特点包括卓越的图形性能、多屏显示、外形紧凑、高能效、长期供货。嵌入式GPU分为超高 性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它们主要使用14纳米的GCN 1.4北极星微架构 ,TDP覆盖20W-135W范围。  Radeon Pro系列显卡被广泛应用于建筑工程、设计制造、媒体娱乐等领域,拥有AMD远程工作站、 AMD Eyefinity多屏显示技术、AMD Radeon ProRender等技术。Radeon Pro系列采用Vega微架构, 7或14纳米制程,直接竞争对手是英伟达的Quadro系列。Radeon Pro移动和台式工作站的合作伙伴包括 苹果、戴尔、惠普等。 Radeon™ Pro VII 资料来源:AMD,方正证券研究所整理 Radeon™ Pro VII GPU规格 GPU架构 Vega20 光刻 台积电 7纳米 FinFET 流处理器 3840 计算单元 60 峰值单精度 (FP32) 性能 13.1 TFLOPs 峰值双精度 (FP64) 性能 6.5 TFLOPs
69. 全球GPU追赶者:英特尔  英特尔是全球最大的PC GPU供应商,也是 PC和服务器显卡唯一的IDM厂商。英特尔 的GPU最早可以追溯到1998年的i740,但 是由于羸弱的性能和缓慢的更新速度,一 直没有非常大的起色。进入Core i时代后 ,英特尔通过将核芯显卡和CPU进行捆绑 销售,利用CPU的庞大市场份额,确立了 公司在集成GPU领域的寡头垄断地位,在 此过程中AMD的APU一直是酷睿的直接竞 争对手。  2020年,英特尔推出了第12代GPGPU, 采用全新的Xe微架构和10纳米Super Fin 制程。相较于第11代核显,Xe-LP在保持 电压不变的前提下,大幅提升主频,能效 显著提高。搭载Xe-LP的i7 1185G7在GPU 性能方面已经超过同期AMD的Vega核显和 英伟达的MX系列独显。  Xe系列可以细分为,集成/低功耗的Xe-LP 、娱乐/游戏的Xe-HPG、数据中心/高性 能的Xe-HP、高性能计算的Xe-HPC。  目前,Xe-LP的集成版本已经被第11代酷 睿所采用。Xe-LP的移动独立GPU版本 DG1和服务器独立GPU版本SG1也已发布 。独显版在核显版的基础上进一步提升主 频,并加入了128位4GB LPDDR4X-4266 独立显存,单精度浮点算力提升15%。 资料来源:英特尔,方正证券研究所整理 英特尔Xe纵向对比第11代核显 主 频 电压 英特尔Xe产品线 百亿亿级超算 数据中心/AI 娱乐 中端 集成+入门级
70. 全球GPU追赶者:英特尔集成GPU  英特尔的集成GPU在形式上表现为核芯显卡。核芯显卡使用系统DRAM作为非独立显存,通过处理器内部 的环状总线与CPU连接,负责处理游戏、视频娱乐等图像负载。  英特尔Xe核显借助10纳米SuperFin的优势,将处理单元最高提升至96个,相较于Icelake的64个提升了 50%,并且将连接CPU和GPU的总线带宽提升一倍,独立最终缓存(LLC)提高50%,支持最高86GB/s 的存储带宽。以上这些提升使i7-1185G7的3DMark跑分较前代i7-1065G7提升接近一倍,超过AMD的R7 4800U和同期英伟达的MX350。  Xe核显的显示引擎和媒体引擎也都得到加强。接口方面,内部支持双eDP,外部支持DP1.4、HDMI2.0、 雷电4、USB4 Type-C。画质方面,支持8K、HDR10、12比特BT2020色域、360赫兹刷新率等。  英特尔Xe核心显卡和CPU经由自家One API驱动中间层框架和上层应用。英特尔One API解决了编码模型 在不同微架构间的壁垒,最大化跨平台表现和最小化开发成本。 英特尔Tiger Lake 实物图和Die 英特尔Tiger Lake Xe核显3DMark性能对比 20000 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 i7-1185G7-15W i7-1185G7-28W AMD R7 4800U 3DMark Night Raid 资料来源:英特尔,Extremetech,Tom’s hardware,方正证券研究所整理 i7-1065G7
71. 全球GPU追赶者:英特尔独立GPU     英特尔独立GPU分为锐炬Xe MAX和服务器GPU,均隶属于Xe LP系 列,微架构与核显Xe相同,采用标准封装和10纳米SuperFin制程。 目前,锐炬Xe MAX是第一款基于英特尔 Xe 架构的面向轻薄型笔记 本电脑的GPU。锐炬Xe MAX在Xe集成GPU的基础上增加了4GB LPDDR4X-4266的独立显存,TDP 25W,峰值主频1650MHz,单精 度浮点性能2.46TFLOPs。锐炬Xe MAX可以和11代酷睿处理器、锐炬 Xe GPU同时工作。借助英特尔Deep Link技术,获得具有强大性能和 经过功耗优化的集成系统,以改进创造力和游戏体验。 目前,英特尔服务器GPU在Xe核显的基础上,TDP提升到23W,增 加了8GB LPDDR4的独立显存,支持高密度、低延迟的安卓云游戏和 高密度媒体转码/编码,以实现实时的OTT视频直播。同时,英特尔服 务器GPU支持2颗、4颗独立GPU的聚合,成倍提高性能。 未来,英特尔还将推出面向游戏和高性能桌面的Xe HPG产品线,增 加了光线追踪等硬件支持,采用传统封装,外包生产。英特尔服务器 GPU将使用Xe HPC、Xe HP微架构,采用2.5D和3D先进封装,10纳 米SuperFin及更先进自家或外包工艺。 英特尔Xe产品、封装、制程 微架构 封装 资料来源:英特尔,pcmag,方正证券研究所整理 英特尔Xe服务器GPU参数 封装尺寸 28mm*34mm 封装类型 FCBGA 主频 0.9GHz-1.1GHz CPU接口 PCIe Gen3 x16 处理单元(EUs) 96 着色器模型 6.5 OpenGL 4.1 L3缓存大小 16MB 使用环境 服务器/企业 显存 128-bit, 8 GB LPDDR4- 2133MHz, 68.25 GB/s 英特尔锐炬Xe MAX 制造
72. 全球GPU IP龙头:ARM Mali  ARM是全球最大的半导体IP提供商。全世界超过95% 的智能手机和平板电脑都采用ARM架构。2019Q2,全 球近43%的手机和平板GPU由Mali驱动。2020第四季 度,ARM半导体合作伙伴基于ARM技术的芯片出货量 达到67亿颗,再创历史新高,超过其他所有流行的CPU 指令集架构—X86、ARC、Power、MIPS的总和。  国产SoC中,有95%是基于ARM处理器技术,ARM中 国授权客户超过150家,基于ARM架构的国产芯片出货 量已经超过184亿。  ARM的Mali GPU按性能可以分为3大类,分别是高性 能、主流、高能效。 ARM Mali GPU路线图 资料来源:ARM,Anandtech,方正证券研究所整理 ARM IP组合和SoC设计 处理器 设计开 子系统 始 ARM 图形和 安全IP 多媒体 物理IP 系统IP
73. 全球GPU IP龙头:ARM Mali-G78  Arm Mali-G78 GPU是用于高端设备的第二代基于Valhall架构的GPU。Mali-G78是性能最高的Arm GPU,可支持复杂的应用,例如适用于Vulkan和OpenCL等所有最新API的游戏图形和机器学习(ML)。  Mali-G78与上一代设备相比,GPU性能提高了25%,并增强了设备上的ML功能,从而有助于将高度复杂 的游戏带入移动设备。Mali-G78最多支持24个内核,并包含异步顶级功能,可确保性能有效地分布在各个 内核上,从而使图形运行更加流畅。全新执行引擎中的新型融合乘加(FMA)单元可进一步降低30%的单 元能耗。  在GFXBench Aztec Ruin的跑分中,使用台积电5纳米工艺,搭载24个Mali-G78内核的麒麟9000 SoC GPU的帧数强于骁龙865的Adreno 650,但仍落后于苹果A14。 ARM Mali-G78 麒麟9000系列的ARM Mali-G78应用 资料来源:ARM,gizchina,方正证券研究所整理
74. 全球GPU IP巨头:Imagination  Imagination Technologies是一家总部在英国,专注于半导体和相关知识产权许可,销售PowerVR移动图形处 理器,MIPS嵌入式微处理器和消费电子产品。公司还提供无线基带处理,网络,数字信号处理器,视频和音频硬 件,IP语音软件,云计算,以及芯片和系统设计服务。2017年,董事会宣布公司被中资的Canyon Bridge收购。  Imagination在GPU领域历史悠久,在其超过25年的历史中,Imagination先后推出过多代GPU产品,已积累超 过1500项GPU专利,曾为苹果供应图像处理器(GPU),在图像处理器(GPU)领域与高通、ARM三分天下, 曾占GPU市场大约占据三分之一的份额,在汽车领域更是达到43%。带有Imagination IP的芯片产品累计出货量 已超过110亿。  Imagination的IP包括图形处理器和视觉与人工智能2类。公司Power VR产品被广泛应用于移动设备(智能手机 、平板)、汽车(仪表、信息娱乐、辅助驾驶)、沉浸式体验(AR/VR)、消费电子(电视、机顶盒)。  根据Imagination的GPU路线图,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年复合增速在 30%左右。2021年的C系列GPU将首次加入L4级别的光线追踪,从硬件层面支持一致性分类的层次包围体(BVH )和复杂光线处理,相比目前英伟达和AMD的L3级别光线追踪方案可显著提升能效,实现更好的用户体验。 IMG系列GPU路线图 资料来源:Anandtech,方正证券研究所整理
75. 全球GPU IP巨头:Imagination  2020年10月,Imagination推出了全新的IMG B系列GPU,这是公司第一个包含新多核架构的GPU IP系列,也 是首次采用RISC-V,可提供最高的性能密度。得益于多核架构和Imagination图像压缩技术(IMGIC),B系列 相比A系列,功耗降低30%,带宽降低35%、面积缩减25%,AI算力达到24 TOPS,且填充率比竞品IP内核高2.5 倍。与A系列相似,B系列GPU也支持AI协同技术,在提供图形处理功能的同时,可用备用资源来处理可编程AI等 任务。  IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四种系列。其中IMG BXE面向高清显示应 用,IMG BXM主打图形处理体验,IMG BXT面向高性能应用,IMG BXS面向未来汽车。  BXS系列符合ISO 26262标准,也是迄今为止所开发的最先进汽车GPU IP内核。BXS提供了一个完整的产品系列 ,从入门到高端,可为下一代人机界面(HMI)、UI显示、信息娱乐系统、数字驾舱、环绕视图提供解决方案。 高计算能力的配置可支持自动驾驶和ADAS。  凭借核心可扩展的优势,IMG B系列适用于传统移动设备、消费类设备、物联网、微控制器、数字电视(DTV)和 汽车等市场领域。IMG B系列也可扩展至桌面GPU、云端GPU服务器,且支持自动驾驶和辅助驾驶等。 IMG B系列对比A系列能效提升 资料来源:Imagination,Anandtech,方正证券研究所整理 Imagination GPU组合
76. 全球移动GPU先驱:高通Adreno    高通的自研GPU Adreno源于收购的AMD移动GPU Imageon系 列。早期的Adreno 100系列只有2D图形加速和有限的多媒体功能 。2008年发布的Adreno 200是首款被集成到骁龙SoC中的GPU, 并加入了3D硬件加速功能。 2020年12月,高通推出了搭载Adreno 660的骁龙888 SoC。 Adreno 660继承了Adreno650的微架构,采用了三星5纳米LPE 工艺,大幅提高主频,使图形渲染性能提高35%,能效提高20%。 Adreno 660全面支持Qualcomm® Snapdragon Elite Gaming和 Qualcomm® Game Quick Touch ,二者将可变速率渲染和响应 速度分别提升30%和20%。 在GFXBench Aztec Ruin 1080P测试中,Adreno 660的峰值帧 数追平麒麟9000,但相较苹果A14仍有近20%的差距。 高通Adreno 660 GPU 更快图形渲染 更好能效 OLED显示一致性 照片质量提升 光学补偿&子像素渲染 资料来源:notebookcheck,维基,极客湾,方正证券研究所整理 高通Adreno 660 1080P性能对比 120 100 80 60 40 20 0 A14 A13 骁龙888 麒麟9000 骁龙865 GFXBench Aztec Ruin(fps) 高通Adreno 660参数 算数逻辑单元 (ALU) 1024 制程 三星5纳米 主频 793 MHz 显存与带宽 64比特LPDDR5(51.2 GB/s) 单精度浮点(FP32) 1622 GFLOPs Vulkan 1.1 OpenGL ES 3.2 Direct3D 12 GPU视频格式 8K 360 VR视频播放
77. 全球移动GPU新秀:苹果  苹果的自研GPU首次出现于2017年的A11 SoC。A11的三核心GPU 作为苹果的首款自研GPU,其性能超过采用Power VR GT7600+的 A10 GPU 30%。其后,所有的A系列SoC的GPU均为苹果自研。  2020年,苹果推出了5纳米制程的M1芯片,该款SoC基于A14芯片 ,在CPU、GPU、NPU、缓存等各方面都进行了强化,用于驱动苹 果的Mac产品。M1芯片的发布标志着苹果继2005年放弃IBM的 PowerPC指令集转向Intel的X86指令集后的又一大PC领域转换。  采用8核GPU的M1拥有128个执行单元,可以同步运行近25000个 线程,单精度浮点算力达到2.6 TFLOPs。  M1 GPU的能效表现是当时同类PC中集成GPU的三倍,峰值性能最 高可达其他GPU的2倍。 苹果M1能效对比 资料来源:苹果,anandtech,方正证券研究所整理 苹果M1 GPU参数 核心数 8核 材质单元数 64 光栅单元数 32 峰值主频 1278MHz 吞吐量(FP32) 2.6 TFLOPs 显存 LPDDR4X-4266 显存位宽 128比特 苹果M1 8核GPU
78. 目录 一、GPU投资逻辑框架 二、详解GPU:专用计算时代的“画师” 三、知己知彼:GPU的全球格局与行业龙头 四、国产GPU自主之路:详解国产GPU GPU国产化分析:严重依赖进口 详解国产GPU龙头:景嘉微、芯原股份 国产GPU其他标的
79. 国产GPU的发展历程    国产GPU的发展落后于国产CPU,直到2014年4月,景嘉微 才成功研发出国内首款国产高性能、低功耗GPU芯片— JM5400。在国产GPU的开发中,GPU对CPU的依赖性和 GPU的高研发难度,阻碍了该产业的快速发展。 首先,GPU对CPU有依赖性。GPU结构没有控制器,必须由 CPU进行控制调用才能工作,否则GPU无法单独工作。所以 国产CPU较国产GPU先行一步是符合芯片产业发展逻辑的。 再者,GPU技术难度很高。Moor Insights & Strategy首席 分析师莫海德曾表示:“相比CPU,开发GPU要更加困难, 而GPU设计师、工程师和驱动程序的作者都要更少。”国内 人才缺口也是国产GPU发展缓慢的重要原因之一。在芯片行 业,一般来说,培养一位拥有丰富经验并且能够根据市场动 态及时修改芯片设计方案的成熟工程师,至少需要10年。 国产GPU发展历程 国产GPU公司及其业务简介 公司 景嘉微 国产GPU启航  2006年启动 “核高基”专项  景嘉微于2010 年开展第二代 GPU研发。 2006  国产GPU企业数 量由少到多,诞 生了一批领军企 业:景嘉微,航 锦科技,芯原股 份等。  GPU产业的发展 仍差距较大。 2020 资料来源:知芯话,创道硬科技,方正证券研究所整理 新一代高性能、高可靠GPU,支持国产CPU和OS (87.96%) 航锦科技 长沙韶光GPU芯片已经可以满足日常办公及娱乐使用 芯原股份 2015年,收购了美国图芯技术Vivante GPU的IP 壁仞科技 云端通用智能计算GPU(AI训练和推理、图形渲染、高 性能通用计算) 中船重工 709所、716所,GPU产品应用于军民两用电子设备、工 业控制、电子信息等领域 龙芯 成立GPU突击队,2020年开始进军GPU领域 兆芯 独立70W GPU(台积电28纳米制程) 芯瞳半导体 国产GPU成长 业务介绍 芯动科技 海思 国产自主的GPU和人工智能芯片(党政军、云游戏), 与国产CPU和OS正在双向认证 “风华”系列智能渲染卡GPU图形处理器 GPU Turbo技术(软件层面提升GPU性能) 西邮微电 自主知识产权高性能图形图像处理、虚拟现实、人工智 能等专用处理器芯片 天数智芯 中国第一家GPGPU云端芯片及超级算力系统提供商 登临科技 GoldwasserTM GPU+ 片内异构设计 摩尔线程 构建中国视觉计算和人工智能领域计算平台,GPU产品 线覆盖通用图形计算和高性能计算 沐曦集成电路 采用国际最先进工艺制程,设计高性能通用GPU产品, 服务数据中心、人工智能等领域 翰博半导体 AI云计算GPU 燧原科技 AI云计算GPU
80. 国产GPU进口替代的紧迫性  中国GPU市场规模和潜力非常大,庞大的整机制造能力意味着巨量的GPU采购。虽然近些年,计算机整机和 智能手机产量增长都出现瓶颈,但由于这两类产品体量庞大,2019年国内智能手机出货量为3.72亿部,电子 计算机整机年产量达到3.56亿台,GPU的需求量大且单品价值非常高,市场规模依然非常可观。  同时,服务器GPU伴随着整机出货的快速成长,需求量增长也较为迅速。据统计,2018年国内服务器出货量 达到330.4万台,同比增长26%,其中互联网、电信、金融和服务业等行业的出货量增速也均超过20%。另外 ,国内在物联网、车联网、人工智能等新兴计算领域,对GPU也存在海量的需求。  据统计,近年来中国集成电路自给率不断提升,2018年为13%,预计2020年有望提升至15%,但仍然处于 较低水平。根据国务院印发的《新时期促进集成电路产业和软件产业高质量发展的若干政策》等文件,中国 芯片自给率要在2025年达到70%,这将产生8000亿元的国产芯片需求。中国芯片产业发展空间非常大。 2019年中国大陆集成电路进口额结构 2012-2020年中国大陆集成电路自给率 资料来源:观察者网,芯知汇,华经情报网,方正证券研究所整理
81. 景嘉微:具有完全自主知识产权,打破国外GPU长期垄断  长沙景嘉微电子股份有限公司成立于2006年4月,位于长沙市高新技术开发区,公司拥有经验丰富的集成 电路设计团队,是国产GPU的主要参与者,也是唯一自主开发并已经大规模商用的企业。  2014年4月,成功研发出国内首款国产高可靠、低功耗GPU芯片-JM5400,具有完全自主知识产权,打 破了国外产品长期垄断我国GPU市场的局面,在多个国家重点项目中得到了成功的应用;  2018年8月,公司自主研发的新一代高性能、高可靠GPU芯片-JM7200流片成功,将国产GPU的技术发 展提高到新的水平,可为各类信息系统提供强大的显示能力;  2019年,公司在JM7200基础上,推出了商用版本-JM7201,满足桌面系统高性能显示需求,并全面支 持国产CPU和国产操作系统,推动国产计算机的生态构建和进一步完善。 景嘉微发展历程 资料来源:景嘉微,方正证券研究所整理
82. 景嘉微国产GPU芯片概述  景嘉微已完成两个系列、三款GPU的量产应用,产品覆盖军用和民用两大市场。  景嘉微第一代GPU JM5400主要运用于军用市场,替代原ATI M9、M54、M72等美系GPU芯片。景嘉微 第二代GPU JM7200在产品性能和工艺设计上较JM5400有较大提升,是首例进入民用市场的图形芯片。 公司与国内主要CPU厂商和计算机整机厂商已建立合作关系。JM7201在JM7200的基础上对民用市场的 桌面应用进行了优化,推出标准MXM和标准PCIE显卡,在保证性能的同时,降低了功耗,缩小了体积。 景嘉微国产GPU芯片产品线 JM5400  JM5400是景嘉微推出的国内首款具有完全自主知识产权的高可靠图形处理 芯片,采用全新的架构设计,于2014年4月流片成功。  可广泛应用于有高可靠性要求的图形生成及显示等领域,满足机载、舰载、 车载环境下图形系统的功能与性能要求。 JM7200 JM7201  JM7200采用28nm CMOS工艺,  支持4K超高清显示,支持4路独立显示输出,支持十屏同时输出,提供多种 丰富的外设接口,可高效完成2D、3D图形加速;  支持H.264、VC-1、VP8、MPEG2和MPEG4等格式高清视频硬件解码,将 CPU资源占用降至最低;  支持对图像及四路多格式的外输入视频进行缩放、旋转、裁剪、叠加、去隔 行及融合处理;提供符合OpenGL规范的驱动程序。  采用28nm CMOS工艺,  支持4K超高清显示,支持4路独立显示输出,支持多屏同时输出,提供多种 丰富的外设接口,可高效完成2D、3D图形加速;  支持H.264、VC-1、VP8、MPEG2和MPEG4等格式高清视频硬件解码,运 行桌面系统时将CPU资源占用降至最低;提供符合OpenGL规范的驱动程序。 资料来源:景嘉微,方正证券研究所整理
83. 景嘉微国产GPU芯片性能详解  景嘉微的第二代GPU JM7200系列于2018年8月流片成功,并在2019年3月获得首个订单。相较于前代 JM5400,JM7200在理论性能上有翻倍的提升,同时制程也进化到了28纳米。但是JM7200在显存带宽 、像素填充率、浮点性能等方面较2012年发售,采用完整版GK107核心的英伟达GT640还有相当差距。 各景嘉微GPU参数对比 景嘉微JM5400 景嘉微JM7200 景嘉微JM7201 英伟达GT640(DDR3) 流片时间 2014/4 2018/8 、 2012 工艺 65nm CMOS 28nm CMOS 28nm CMOS 28nm CMOS 时钟频率 内核时钟频率最大550MHz, 存储器时钟频率最大800MHz 主机接口 PCI 33/66MHz 支持PCIE2.0 X8 X4 X2 X 支持PCIE2.0 X8 X4 X2 X1 PCIE 3.0 X16 显存带宽 12.8GB/s 17GB/s 17GB/s 28.5GB/s 存储器容量 1GB DDR3 4GB DDR3 4GB DDR3 2GB DDR3 像素填充率 2.2G pixels/s 5.2Gpixels/s 4.8Gpixels/s 14.4Gpixels/s 浮点性能/GFLOPS 160 500 、 692 显示输出 两路LVTTL,两路VGA,两路 LVDS 4路独立显示输出 4路独立显示输出 1x DVI 1x HDMI 1x DisplayPort 工作温度 -55℃ ~+125 ℃ -40℃~+85℃/- 55℃~+125℃ 0℃~70℃ 小于102℃ 贮存温度 -65℃ ~+150 ℃ -65℃ ~+150 ℃ 、 、 功耗 不超过6瓦 桌面应用小于20W,嵌入式应 用小于10W 桌面应用典型功耗10W- 15W/低功耗状态小于5W 50W 封装 FCBGA 1331脚,MCM封装 FCBGA1473脚,SIP封装 FCBGA 628脚 FC-BGA 尺寸 37.5mm x 37.5mm 40mm x 40mm 23mm x 23mm 118mm² 应用领域 军用 军用、民用 民用 民用 内核时钟频率最大1300MHz, 内核时钟频率最大1200MHz, 支持动态调频 支持动态调频 资料来源:techpowerup,超能网,方正证券研究所整理 内核900MHz,等效存储器 时钟频率1800
84. 景嘉微国产GPU生态  景嘉微JM7200已完成与龙芯、飞腾、麒麟软件、统信软件、道、天脉等国内主要的CPU和操作 系统厂商的适配工作,与中国长城、超越电子等十余家国内主要计算机整机厂商建立合作关系并 进行产品测试,与麒麟、长城、苍穹、宝德、超图、昆仑、中科方德、中科可控、宁美等多家软 硬件厂商进行互相认证共同构建国产化计算机应用生态。  JM7200在通用领域主要应用于桌面办公计算机,公司已与湖南长城科技信息有限公司、北京神 州数码有限公司等多家公司签订合作框架协议,未来将在产品整合、资源共享及市场合作等方面 将开展深度合作。在前款芯片研发的基础上,公司目前正在大力开展下一代图形处理芯片的研发 工作,目前下一代图形处理芯片研发处于后端设计阶段,研发进程一切顺利。 JM7200适配及测试工作稳步推进 签订合作框架协 议 CPU和操作系统 厂商的适配工作 软硬件厂商进行 互相认证 资料来源:wind,方正证券研究所整理
85. 景嘉微国产GPU后续研发  2018年12月,景嘉微定增募集10.88亿元,用于高性能通用图形处理器和面向消费电子领域的通用类芯片研发和 产业化项目。其中,高性能通用图形处理器项目包括JM9231和JM9271两款GPU芯片,分别面向不同应用领域的 中、高档系列产品。据公司2020年中报显示,下一代图形处理器研发处于后端设计阶段,研发进程一切顺利。  景嘉微JM9系列是继JM5400和JM7200局部渲染计算内核之后,首次采用统一渲染结构的GPU,并且增加了可 编程计算模块数量。JM9231和JM9271在性能表现分别与英伟达于2016年推出的GTX1050和GTX1080相近。 JM9系列的推出将使公司GPU水平与海外龙头水平缩短至5年,大幅提升公司在GPU领域的竞争力。 景嘉微后续高性能通用GPU性能参数对比 景嘉微JM9231 英伟达GTX 1050 景嘉微JM9271 英伟达GTX 1080 API支持 OpenGL 4.5, OpenCL 1.2 OpenGL 4.6, DX12 OpenGL 4.5, OpenCL 2.0 OpenGL 4.6, DX12 Boost主频 > 1,500 MHz 1,455 MHz > 1,800 MHz 1,733 MHz 总线接口 PCIe 3.0 PCIe 3.0 PCIe 4.0 PCIe 3.0 显存带宽 256 GB/s 112 GB/s 512 GB/s 320 GB/s 显存类型 8GB GDDR5 2GB GDDR5 16GB HBM 8GB GDDR5X 像素填充率 > 32 GPixel/s 46.56 GPixel/s > 128 GPixel/s 110.9 GPixel/s FP32性能 2 TFLOPs 1.862 TFLOPs 8 TFLOPs 8.873 TFLOPs 影响输出 HDMI 2.0, DisplayPort 1.3 HDMI 2.0, DisplayPort 1.4 HDMI 2.0, DisplayPort 1.3 HDMI 2.0, DisplayPort 1.4 编码 H.265/4K 60FPS H.265/4K 60FPS H.265/4K 60FPS H.265/4K 60FPS TDP 150W 75W 200W 180W 主要面向市场 党、政、金融以及交通、通 信等系统国产化电脑替换 民用消费 人工智能、云计算等领域, 包括智能安防、语音识别等 民用消费 资料来源:wind,extremetech,方正证券研究所整理
86. 景嘉微:GPU业务高增长  2019年景嘉微实现营收5.31亿元,同比增长33.6%,实 现归母净利润1.47亿元,同比增长23.7%。2020年在疫 情等负面影响下,公司得益于图显产品、雷达产品、 GPU芯片增长,公司前三季依旧保持较高业绩增速。  2017-2019年,景嘉微GPU芯片收入年复合增速近60% 。我们认为,随着公司图显模块由军机向更广阔的车载和 船舶显控等领域延伸,GPU芯片的民用市场拓展和新一 代JM9系列的推出,雷达产品应用更加广泛,公司业绩将 维持高增长。  由于景嘉微GPU芯片业务仍处于相对早期阶段,所以该 领域的毛利水平较低,且波动相对较大。我们认为,随着 信创市场的放量,GPU毛利将稳步提升。 2017-2019景嘉微GPU芯片营收 2018-2020H1景嘉微GPU芯片毛利率 80% 60% 40% 20% 0% 2018 2019 GPU芯片毛利率 2020H1 2019景嘉微GPU芯片营收占比 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0 140% 2% 120% 8% 100% 80% 小型专用化雷达领域产品 40% GPU芯片 0% 2018 GPU芯片(万元) 2019 同比增速 资料来源:wind,公司公告,方正证券研究所整理 18% 60% 20% 2017 图形显控领域产品 72% 其他收入
87. 国产GPU IP龙头:芯原股份  芯原微电子是依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务 的企业。公司至今拥有高清视频、高清音频及语音、车载娱乐系统处理器、视频监控、物联网连接、数据 中心等多种一站式芯片定制解决方案,以及5类自主可控的处理器IP,分别为图形处理器IP、神经网络处理 器IP、视频处理器IP、数字信号处理器IP和图像信号处理器IP,以及1,400多个数模混合IP和射频IP,年均 流片项目超过40个。主营业务的应用领域广泛包括消费电子、汽车电子、计算机及周边、工业、数据处理 、物联网等,主要客户包括IDM、芯片设计公司,以及系统厂商、大型物联网公司等。  芯原在传统CMOS、先进FinFET和FD-SOI等全球主流半导体工艺节点上都具有优秀的设计能力,先进工艺 制程覆盖14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已开始进行5nm FinFET 芯片的设计研 发和新一代 FD-SOI 工艺节点芯片的设计预研。  此外,根据Ipnest统计,芯原是2019年中国大陆排名第一、全球排名第七的半导体IP授权服务供应商,全 球市场占有率约为1.8%。 芯原股份发展历程 2019全球IP企业市占率排名 ARM 1.80% Synopsys Cadence 25.60% 40.80% SST Imagination 2.20% 2.60% 2.90% 5.90% Ceva 18.20% 芯原股份 其他 资料来源:芯原股份,eenewsanalog,方正证券研究所整理
88. 国产GPU IP龙头:芯原股份  芯原股份的GPU IP源于公司在2016年收购的美国嵌入式GPU 设计商图芯技术(Vivante)。  芯原在GPU IP领域已经掌握了支持主流图形加速标准、自主 可控指令集和可拓展性强,性能范围广泛等核心技术,可广泛 应用于IOT、汽车电子、PC等市场。根据 IPnest 报告,芯原 GPU IP(含 ISP)市场占有率排名全球前三,仅次于ARM和 Imagination,2019 年全球市场占有率约为 11.8%。  目前,芯原在图形处理器技术的研发课题包括通用图形处理器 运算内核的持续优化和矢量图形处理器DDR-Less技术。矢量 GPU DDR-Less技术可以在不使用外部存储器DDR的基础上, 实现架构清晰、分工明确、易于使用、软件控制流程简单等优 点,适用于物联网、可穿戴设备和车载设备。 芯原GPU IP的核心技术和典型应用示例 资料来源:芯原股份公告,i-micronews,方正证券研究所整理 2019全球IP设计分类 CPU 4.60% 17% Interface 36% 5.10% 5.80% GPU/ISP OTP/MTP/Flash DSP 9.90% 22.10% Mem Comp 其他
89. 国产GPU IP龙头:芯原股份  芯原可拓展Vivante GPU IP应用涵盖从低功耗 的小型物联网MCU(GPU Nano IP系列)到面 向汽车和计算机应用的强大SoC(GPU Arcturus图形IP),可满足各种芯片尺寸和功耗 预算,是具有成本效益的优质图形处理器解决方 案。  芯原的的图形处理器技术支持业界主流的嵌入式 图形加速标准Vulkan1.0、OpenGL3.2、 OpenCL1.2 EP/FP和OpenVX1.2等,具有自主 可控的指令集及专用编译器,支持每秒2500亿次 的浮点运算能力及128个并行着色器处理单元。 芯原GPU IP产品线及其可应用场景 芯原GPU Nano IP产品线及其可应用场景 GCNanoLiteV 主要特点/功能 目标UI分辨率 (30-60 FPS)情 况下 目标应用/系统 软件API驱动 GCNanoUltra31 Vector Graphics 3D GPU OES 2.0 (2.5D GPU) VGA~WVGA >1080p* 3D GPUVulkan, OES 3.1 WVGA~1080p WVGA~1080p 穿戴,嵌入式系统 安卓穿戴,主流 MCU MCU,开放系统 安卓穿戴,高端 MCU,开放系统 Vulkan 1.1/1.0, OpenGL ES Vector Graphics OpenGL ES 2.0/1.1, OpenVG VGLite 3.1/3.0/2.0,Open 1.1 VG 1.1 DDRLess选项 是 否 否 芯原GPU IP API和操作系统兼容性 GPU API支持 操作系统支持 Vulkan 1.1 安卓 OpenGL ES 1.1/2.0/3.0/3.1 AEP/3.2 Chrome OS OpenGL 2.1/3.1/4.0 Linux OpenCL 1.1/1.2/3.0 OpenVG 1.1 OpenVX 1.2 DirectX 11 (SM5) 资料来源:芯原股份,方正证券研究所整理 GCNanoUltra Windows 10/CE QNX 其他
90. 国产GPU IP龙头:芯原股份  芯原股份现有的半导体IP分为处理器IP、数模混合IP 及射频IP,其中GPU IP隶属于处理器IP。  整体来看,2017-2019芯原得益于不断丰富的IP储备 及一站式芯片定制业务的协同效应,公司半导体IP授 权业务收入持续上升,GPU IP的年复合增速达13%。 2019年GPU IP的营收占公司半导体IP营收的31.29% ,主要由于其他类型IP收入上升,GPU IP比重相对下 降。  芯原在图形处理器技术方面的研发包括高性能的通用 图形处理器GC8400 IP,该IP适用于汽车电子,目前 仍处IP设计验证阶段,拟达到每秒1万亿次的浮点运算 能力双倍精密度,512个并行着色器处理单元。 芯原业务模式 芯原GPU IP营收趋势 2019芯原GPU IP营收占比 16000 25% 图形处理器IP 2.60% 14000 6.74% 20% 12000 10000 15% 10.37% 8000 10% 6000 4000 神经网络处理器IP 31.29% 5.24% 数字信号处理器IP 7.02% 图像信号处理器IP 5% 2000 0 0% 2017 2018 图形处理器IP营收(万元) 2019 同比增速 资料来源:芯原股份,方正证券研究所整理 视频处理器IP 12.80% 23.94% 数模混合IP 射频IP 其他
91. 航锦科技:收购长沙韶光,进军GPU领域  航锦科技是一家大型化工生产基地,公司的前身是锦西化工总厂。2017下半年,航锦科技通过收购长沙 韶关和威科电子两家军工企业,挺进电子产业,形成化工+电子双主业发展模式,构建起三个支撑板块( 化工、电子、金融)。  航锦科技电子板块以芯片为核心产品,围绕高端芯片与通信两大领域,覆盖高端芯片(图形处理芯片/特 种FPGA/存储芯片/总线接口芯片)、北斗3芯片以及通信射频三大主要产业。坚持军民两用为发展方向, 产品广泛应用于航空、航天、兵器、船舶、电子等领域,拥有广阔的市场空间。  航锦科技的GPU技术源于并购的长沙韶光。2018年,长沙韶光自主研发和合作研发的第一代及第二代图 形处理芯片(GPU)获得集成电路布图设计登记证书;2019年,长沙韶光自主研发的第二代改进型图形 处理芯片在自主可控设备领域的应用得到验证,并收获相关订单。 航锦科技自主可控芯片板块示意图 自主可控设 备 GPU 显示模块 加固设备 FPGA 晶圆 流片 封测晶圆 芯片 总线接口 非易失性存 储 设计 资料来源:WIND,方正证券研究所整理 射频基带一 体化芯片 导航模块 导航地图 导航解决方 案
92. 兆芯:同时掌握CPU、GPU、芯片组三大核心技术  上海兆芯集成电路有限公司,简称“兆芯”,由上海联合投资有限公司(上海市国资委 完全出资)和中国台湾威盛电子共同成立,也是世界上第三家拥有X86授权的微处理器 公司,总部位于上海张江,在北京、西安、武汉、深圳等地设有研发中心和分支机构。  公司同时掌握CPU、GPU、芯片组三大核心技术,且具备三大核心芯片及相关IP设计与 研发的能力,致力于通过技术创新与兼容主流的发展路线,推动信息产业的整体发展, 并获评了“高新技术企业资质”。兆芯提供了桌面整机,服务器,工业主板,工业平台 ,系统级解决方案,在党政办公,交通,金融,能源,教育,网络安全方面有着广泛的 应用。 上海兆芯股权结构 上海联合投资 兆芯的桌面案例 威盛电子 14.8% 85.2% 兆芯 资料来源:企查查,兆芯官网,方正证券研究所整理 兆芯的服务器案例
93. 兆芯KX6000处理器  2019Q2,兆芯发布了全新的用于PC的处理器 KX-6000系列。KX-6000是业内第一款完整集成 CPU、GPU、芯片组的SoC单芯片国产通用处理 器。  KX-6000系列处理器采用16纳米制程,集成高 性能显卡,支持DP/HDMI/VGA输出,兼容 DirectX、OpenGL、OpenCL等主流API,最高 可同时输出3台显示器,分辨率可达4K。  全新的KX-6000系列处理器拥有出色的兼容性和 应用体验,包括Windows操作系统,日常办公应 用,4K视频解码和主流游戏。 兆芯KX-6000处理器芯片架构 资料来源:兆芯,方正证券研究所整理 兆芯KX-6000系列兼容性和应用体验 日常办公应用 主流游戏 4K解码 兆芯KX-6000处理器集成显卡参数 处理器显卡 C-960 3D/2D 支持 4K支持 支持 DirectX支持 11 OpenCL支持 1.1 OpenGL支持 3.2 硬件加速的视频编码器 支持 支持的显示器数量 3 图形输出 DP/eDP/HDMI/VGA
94. 兆芯处理器的后续发展  兆芯KX-6000的C-960 GPU在使用惠普兆芯图形 DCH驱动的情况下,Dota 2游戏性能表现远落后 英特尔酷睿i5-7400的UHD 630。  未来,兆芯还会对KX系列处理器进行进一步的更 新,使用全新的CPU架构,将内存从DDR4升级为 DDR5,将总线从PCIe3.0升级至PCIe4.0。内存 和总线的升级分别可以提高显卡的带宽和CPU与 GPU间的通讯速度。  除了以上集成GPU外,兆芯还计划发布一款采用 台积电28纳米工艺,TDP 70瓦的独立GPU。 兆芯KX6000 GPU游戏性能对比 720P 1080P 兆芯KX-U6780A DDR4-2133 (HP 驱动) 19 fps 17 fps 兆芯KX-U6780A DDR4-2666 (HP 驱动) 20.6 fps 17 fps Core i5-7400 (UHD 630) 104.9 fps 85 fps 兆芯处理器发展路线图 微架构代号 处理器系列 GPU 2015 2016 2017 2019 张江 张江 五道口 陆家嘴  ZX-C 无GPU 未来  ZX-C+  ZX-C+ Dual Die  KX-5000  ZX-200  KX-6000  KX-7000 无GPU C-860 C-960  DDR5  PCI-E 4.0 资料来源:兆芯,驱动之家,tom’s hardware,方正证券研究所整理
95. 中船重工709所:凌久电子GPU  凌久电子创立于1983年,是中国船舶重工集团 公司第七〇九研究所控股的高新技术企业。  凌久电子以嵌入式实时信号处理与高性能计算技 术为基础,面向船舶、航空、航天、兵器等国防 电子领域及轨道交通、海工装备、能源电力、半 导体制造等民用高科技领域提供芯片级、模块级 、设备级、系统级等软硬件产品;面向科研院所 、部队及军校提供作定制化军事仿真服务。  凌久电子产品包括元器件类产品、基础硬件设备 、基础支撑软件、应用类产品四大类。其中国产 通用GPU GP101隶属于元器件类产品。 凌久电子平台产品 凌久电子元器件类产品分类 凌久电子股权结构 16位PC架构SoC(LRPC110I) 中船重工(武汉)凌 久科技投资有限公司 其他 国产通用图形处理器GP101 元器件类产品 24.6% 75.4% 国产PCI图形显示控制器 GC69030 轴角转换模块类产品 资料来源:凌久电子,天眼查,方正证券研究所整理 中船重工(武汉)凌 久电子有限责任公司
96. 中船重工709所:凌久电子GPU概述  GP101是由中国船舶重工集团第709研究所控股的凌久电子研制,具备完全自主知识产权的图形 处理器芯片。GP101支持2D/3D图形加速,支持二维矢量图形加速,支持4K分辨率、视频解码和 硬件图层处理等功能。  GP101支持VxWorks、Linux、Windows等通用操作系统,支持中标麒麟、道等国产操作系 统,支持龙芯、飞腾、申威等国产处理器。  GP101实现了我国通用3D显卡零的突破,在信息安全和供货能力方便有充分的保障,可以广泛应 用于军民多个领域。 产品特性  兼容IBM VGA标准、VESA标准;  支持8位色、16位色、24位色、32位色多种色彩模 式;  支持VxWorks、Linux、Windows等通用操作系 统;  支持中标麒麟、道等国产操作系统;  支持龙芯、飞腾、申威等国产处理器;  核心频率600MHz;  PCI-E 2.0 X4 总线;  1GB 64-Bit DDR III显存,1333Mbps;  VGA/DVI/HDMI/数字显示接口输出;  支持双屏4K(3840*2160)分辨率显示输出;  支持2D/3D图形加速;  支持二维矢量图形加速,OpenVG1.1标准;  支持H.264等格式视频解码;  芯片功耗<7W,工作温度范围-55℃~125℃; 资料来源:凌久电子,方正证券研究所整理 2D特性  支持二元、三元光栅操作的BitBLT引擎;  支持8位色、16位色、24位色、32位色的色 彩扩展;  支持硬件0°/90°/180°/270°窗口旋转;  支持窗口平滑滚动;  支持窗口裁剪;  支持像素屏蔽;  支持硬件光标; 3D特性  支持OpenGL ES 2.0、OpenGL 2.0;  像素填充率2.4G Pixel/S;  纹理填充率2.4G Texel/S;
97. 中船重工716研究所:JARI G12 GPU  七一六所自主研发的JARI G12是2018年性能最强的国产通用图形处理器。该处理器采用混合渲染架构, 兼顾数据带宽和渲染延时需求,极大地增强了芯片的灵活性和适应性;  提供PCIe 3.0总线,支持x86处理器和龙芯、飞腾、申威等国产处理器;支持4路数字通道和1路VGA输出 ,提供DP、eDP、HDMI、DVI等通用显示介面,单路数字通道最大输出分辨率为3840×2160@60fps, 支持扩展、复制显示和“扩展+复制”显示模式;  内建视频编解码硬核,支持2路3840×2160分辨率视频的编码、解码功能;  支持OpenGL 4.5和OpenGL ES 3.0,满足高性能3D加速和VR显示需求;  支持OpenCL 2.0,满足并行计算和云计算的使用需求;  集成张量加速计算硬核,支持AI计算加速。该GPU支持Windows、Linux、VxWorks等主流操作系统,同 时支持中标麒麟、JARI-Works、道等国内自主可控操作系统,具备健全的生态环境体系。 JARI G12架构示意图 资料来源:中船重工,方正证券研究所整理
98. 国产IP和芯片定制先驱:芯动科技  芯动科技是中国一站式IP和芯片定制领军企业,提供全球6大工艺厂(台积电/三星/格芯/中芯国际/ 联华电子/英特尔)从130nm到5纳米全套高速混合电路IP核和ASIC定制解决方案,聚焦先进制程。  芯动科技15年来立足本土发展,所有IP和产品全自主可控,连续十年中国市场份额领先。公司客户群 涵盖华为海思、中兴通讯、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、 Cypress等全球知名企业。  在高性能计算/多媒体&汽车电子/IoT物联网等领域,芯动解决方案具有国际先进水平,涵盖DDR5/4 、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含 PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能图像处理器GPU和多媒体处理内核等 多种技术。芯动科技的芯片定制,跨工艺跨封装,涉及从需求到产品, 能端到端为客户加速从规格、 设计到流片量产,及封装成型全流程。 芯动科技一站式IP系列 资料来源:芯动科技,方正证券研究所整理 芯动科技高性能计算平台IP
99. 芯动科技:携手Imagination,“风华”诞生  2020年10月13日,芯动科技与 Imagination达成合作。采用最 前沿的多晶粒芯片(chiplet)和 GDDR6高速显存等SOC创新, 芯动科技将全球首发 Imagination全新顶配BXT多核 架构。  在信创和算力安全方面,“风华 ”系列GPU内置国产物理不可克 隆iUnique Security PUF信息 安全加密技术,提升数据安全和 算力抗攻击性,支持桌面电脑和 数据中心GPU计算自主可控生态 。  “风华”系列GPU自带浮点和智 能3D图形处理功能,全定制多 级流水计算内核,兼具高性能渲 染和智能AI算力,还可级联组合 多颗芯片合并处理能力,灵活性 强,适配国产桌面市场 1080P/4K/8K高品质显示,支 持VR/AR/AI,多路服务器云桌 面、5G数据中心、云教育、云 游戏、云办公等中国新基建5G 风口下的大数据图形应用场景。 芯动科技“风华”系列 芯动科技携手Imagination 资料来源:芯动科技,方正证券研究所整理
100. 华为海思:GPU Turbo  GPU Turbo是一种软硬协同的图形加速技术,可以减少无用渲染次数,优化或合并渲染区域。通过算法 ,将相关运算放在一个或相邻的寄存器中,以此来优化图形处理效率。  GPU Turbo技术打通了EMUI操作系统以及GPU和CPU之间的处理瓶颈,在系统底层对传统的图形处理 框架进行了重构,实现了软硬件协同,使得GPU图形处理整体效率得到大幅提升。  2018年6月发布了GPU Turbo 1.0,图形处理效率提高60%,同时做到更省电,保证高画质。  2018年9月发布了GPU Turbo 2.0,游戏场景下功耗下降可达13.6%,新增支持多款主流游戏,同时针 对支持的游戏中关键&极限场景(如团战、载具等)进行了重点打磨与优化。  2019年4月GPU Turbo全新升级,不仅带来主流游戏接近满帧运行的酣畅体验,功耗的持续降低也带来 了续航时间的提升。累计支持60款国内游戏。 GPU Turbo优化结构 GPU Turbo 2.0能效对比 50 45 40 35 30 25 20 15 10 5 0 骁龙845 麒麟980 MW/帧 资料来源:电子发烧友,noypigeeks,方正证券研究所整理 麒麟980+GPU Turbo
101. 龙芯:GPU突击队  中科院计算所于2001年成立龙芯课题组,开始研制龙芯系列处理器,得到了中科院、863、973、核高基等 项目大力支持,完成了十年的核心技术积累。2010年4月,中国科学院和北京市共同牵头出资入股,成立龙 芯中科技术有限公司,龙芯正式从研发走向产业化。  目前,龙芯自主研发的GPU集成在7A1000桥片中。龙芯7A1000桥片是面向龙芯3号处理器的芯片组,通过 HT3.0接口与处理器相连,集成GPU、显示控制器和独立显存接口,外围接口包括32路PCIE2.0、2路 GMAC、3路SATA2.0、6路USB2.0和其它低速接口,可以满足桌面和服务器领域对IO接口的应用需求,并 通过外接独立显卡的方式支持高性能图形应用需求。  虽然龙芯7A1000桥片的GPU性能一般,但是桥片作为CPU产业链的一环,龙芯已经实现CPU、桥片和 GPU上完全自主化,打通了CPU产业链上每一个环节。  2020年,龙芯成立六支研发突击队,分别为3A5000突击队、3C5000突击队、7A2000突击队、2K2000突 击队、GPU突击队、PCIE突击队。这六支突击队的目的就是要把2-3年的工作,在一年内干完! 龙芯7A1000 资料来源:龙芯,方正证券研究所整理 龙芯7A1000 GPU相关参数 处理器接口 HT3.0 x16 3.2Gbps 处理器连接 双路处理器直连 GPU 支持2D、3D 显存 DDR3 16位 显示接口 DVO*2 PCIE接口 PCIE2.0*32(共 12ports) 功耗 5~8W
102. 芯瞳半导体:高性能GPU设计新星  芯瞳半导体成立于2019年,主要业务包括GPU芯片设计、异构计算平台方案、嵌入式显示系统解决方案、GPU 应用部署解决方案。  公司着力于研发高性能的GPU芯片,为用户提供以自研GPU芯片为核心的解决方案,致力于打造业界领先的 GPU芯片设计平台,目标是成为国际一流的GPU芯片设计企业。公司创始团队在GPU领域有着超过10年的学术 和工程经验,是一支软硬件全栈式支持的研发团队。  公司的GPU架构采用了业界主流的统一渲染架构,并具有高度可扩展的互联结构和计算阵列,便于芯片后续迭代 升级。经过多年的积累,团队构建了芯片建模虚拟平台,通过该虚拟平台,团队可以快速地完成GPU相关软件的 研发和软件生态的部署,与此同时,在该虚拟平台上快速地对芯片架构进行验证,从而缩短GPU芯片的设计验证 周期,提升GPU芯片的设计效能。  公司第一代GPU芯片(GenBu01)初测已成功,已与统信、麒麟及昆仑完成适配,目前正在为小批量量产做最 终测试。 GenBu01主要面向的客户为需要定制嵌入式计算机产品的客户以及为国产替代领域提供信创办公PC的 ODM/OEM厂商。 芯瞳GenBu01 资料来源:芯瞳半导体,方正证券研究所整理 芯瞳GenBu01参数 芯瞳合作伙伴 架构设计 统一渲染架构 功能支持 OpenGL4.3 通用计算 OpenCL1.2 宽带 1.2GPixel/s 2 .4GTexel/s 工艺 40nm 显存 1GB
103. 天数智芯:国产GPGPU领跑者  天数智芯于2018年正式启动GPGPU芯片设计,是中国第一家GPGPU高端芯片及超级算力提供商。  天数智芯重点打造自主可控、国际一流的通用、标准、高性能云端计算芯片GPGPU,从芯片端解决计算 力问题;并推出面向5G技术需求的边缘云端推理GPGPU,提供对当前进口主流GPGPU体系的无缝兼容 和市场化选择。  2021年1月15日,天数智芯成功点亮自研7纳米制程GPGPU云端训练芯片,性能达市场主流产品的两倍 。该芯片量产后将广泛应用于AI训练、高性能计算(HPC)等场景,服务于教育、互联网、金融、自动 驾驶、医疗、安防等各相关行业,赋能AI智能社会。  天数智芯7纳米GPGPU高端自研云端训练芯片的产品优势包括:全方位生态兼容、高性能有效算力、指 令集编程架构、软硬件全栈支持、全自主知识产权。 天数智芯7纳米GPGPU BI芯片 天数智芯GPGPU BI芯片参数 制程 7纳米 封装 2.5D CoWoS 晶体管数 数据混合训练格式 资料来源:天数智芯,新浪科技,方正证券研究所整理 240亿 FP32, FP/BF16, INT32/16/8等多 精度数据混合训练 片间互联 支持 FP16算力 147TFLOPS 其他特点 每秒可完成上百路摄像头视频通 道的人工智能处理,性能达市场 主流产品的两倍
104. 国产GPU新星:壁仞科技和沐曦集成电路  壁仞科技创立于2019年,团队由国内外芯片和云计算领域核心专业人员、研发人员组成,在GPU、DSA (专用加速器)和计算机体系结构等领域具有深厚的技术积累和独到的行业洞见。  壁仞科技致力于开发原创性的通用计算体系,建立高效的软硬件平台,同时在智能计算领域提供一体化 的解决方案。从发展路径上,壁仞科技将首先聚焦云端通用智能计算,逐步在人工智能训练和推理、图 形渲染、高性能通用计算等多个领域赶超现有解决方案,实现国产高端通用智能计算芯片的突破。  沐曦集成电路专注于设计具有完全自主知识产权,针对异构计算等各类应用的高性能通用GPU芯片。公 司致力于打造国内最强商用GPU芯片,产品主要应用方向包含传统GPU及移动应用,人工智能、云计算 、数据中心等高性能异构计算领域。  对于研发的方向,沐曦表示将采用业界最先进的5nm工艺技术,研发全兼容CUDA及ROCm生态的国产 高性能GPU芯片,满足HPC、数据中心及AI等方面的计算需求。GPU将采用原创专利保护的可重构GPU 架构,突破传统GPU芯片能效瓶颈;采用数据压缩,数据广播以及共享硬件加速单元等先进技术,大幅 度优化核心算力能耗比。 沐曦高性能GPU研发项目 投资方 沐曦集成电路(南京)优先公司,专注于 设计全球顶尖GPU系列产品、各类高端 应用高性能GPU芯片 总投资 5亿元 建设内容 营收 采用国际最先进工艺制程,设计高性能通 用GPU产品,为数据中心、人工智能等 领域提供高算力实现方案 项目建成后,预计年营收约2亿元 资料来源:华强微电子,方正证券研究所整理
105. 国产GPU新星:登临科技和摩尔线程  登临科技成立于2017年11月,是一家专注于为新兴计算领域提供高性能、高功效计算平台的高科技企业。公司 的产品是以芯片为核心的系统解决方案,在所有核心IP上坚持自研路线。  登临科技已完成由元禾璞华、元生资本联合领投的A+轮融资,包括北极光在内的老股东持续在本轮加码跟进。登 临科技的首款GPU+(软件定义的片内异构通用人工智能处理器)产品已成功回片通过测试,开始客户送样,公司 团队具备架构、系统、软件、硬件、芯片、验证等方面的综合能力。  登临科技GoldwasserTM GPU+产品在现有市场主流的GPU架构上,创新采用软硬件协同的异构设计。GPU+ 异构设计让产品在对客户实际业务继承在现有生态上的投入、在保证极高兼容性的同时,相比传统GPU在AI计算 上性能和能效均有明显提升,大大降低了外部带宽的需求,显著降低客户总拥有成本。  摩尔线程创立于2020年10月,去年12月获得天使轮融资,今年2月22日获得Pre-A轮融资。摩尔线程致力于构 建中国视觉计算和人工智能领域计算平台,研发全球领先的自主创新GPU知识产权,其GPU产品线覆盖通用图形 计算和高性能计算。公司核心成员主要来自英伟达、微软、英特尔、AMD、ARM等,覆盖GPU研发设计、生产 制造、市场销售、服务支持等完整架构。 登临科技业务范围 摩尔线程Pre-A轮融资 自动驾驶 安防 机器人 智慧城市 生物医疗 云计算 资料来源:登临科技,芯东西,方正证券研究所整理
106. 国产GPU新星:翰博半导体  翰博半导体成立于2018年12月,立志于发展成为国际顶尖的芯片公司,立足于中国市场,填补国 内市场国产芯片的空白,为智能应用提供高效算力,为人工智能创新以及应用落地赋能。  翰博半导体拥有国内外专家组成的团队。公司核心员工来自世界顶级的高科技公司,平均拥有15 年以上的相关芯片,软件设计经验。  瀚博的产品注重计算机视觉及视频处理的优化,提供丰富的特性,高效的性能/功耗;适用多个人 工智能领域。产品覆盖从边到云,SOC及服务器市场。  翰博半导体CEO—钱军拥有25年以上高端芯片设计经验和40多款芯片设计和量产的经验,带队设 计量产业界第一颗7纳米图像处理器和AI服务器芯片,曾任AMD高管Senior Director,直接负责 设计团队超过800人,全面负责GPU( 图像处理器和AI服务器)芯片设计和生产,现在市场上所 有AMD Radeon图像处理器和AI服务器都是由其带队开发,包括多个系列DGPU和MI系列产品。 翰博半导体投资人 翰博半导体核心技术 先进的芯片定义和设计 翰博 半导体 实力 稳定高效的设计开发流程 人工智能核心技术 资料来源:翰博半导体,方正证券研究所整理
107. 国产GPU新星:燧原科技     燧原科技成立于2018年3月,专注于人工智能领域云端算力 平台,致力为人工智能产业发展提供普惠的基础设施解决方 案,提供自主知识产权的高算力、高能效比、可编程的通用 人工智能训练和推理产品。 燧原科技的产品技术由训练、推理、软件平台构成。其中, 训练业务包含加速卡 “云燧T10” 和“云燧T11”;推理业 务包含加速卡 “云燧i10”;软件平台包含“驭算”。 “云燧”系列加速卡采用自研DTU架构,支持ESL高速互联和 开放生态。 “云燧”芯片采用格罗方德的12nm FinFET工艺 ,结合 2.5D先进封装,拥有141亿晶体管和16GB HBM2显 存,在FP32的算力和能效比方面领先GPU。 计算及编程平台“驭算”,由燧原自主研发,支持主流深度 学习框架,并针对邃思芯片进行了针对性优化。 驭算计算及编程平台 云燧T10拆机 驭算计算及编程平台 资料来源:燧原科技,方正证券研究所整理
108. 风险提示  中美局势紧张,国际形势面临不确定的风险。GPU产业链为先进制程芯片产业链 ,对于14nm及以下结点的先进制程,设备、材料、EDA/IP、制造等环节与国外 领先龙头差距较大,容易受到美国实体清单的负面影响。  国产替代不及预期的风险。基于安全的自主可控是推动国产GPU成长的主要力量 ,目前国产GPU还正在验证和优化之中,存在国产替代不及预期的风险。  国产GPU生态建设不及预期的风险。生态的作用在GPU市场上表现的十分突出, 目前国内企业对生态领导能力较弱。国产主要GPU的民用化进程远落后于英伟达 、AMD、英特尔。
109. 分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格,保证报告所采用的数据和 信息均来自公开合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了 作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响。研究 报告对所涉及的证券或发行人的评价是分析师本人通过财务分析预测、数量化方法、 或行业比较分析所得出的结论,但使用以上信息和分析方法存在局限性。特此声明。 免责声明 本研究报告由方正证券制作及在中国(香港和澳门特别行政区、台湾省除外)发布。 根据《证券期货投资者适当性管理办法》,本报告内容仅供我公司适当性评级为C3及 以上等级的投资者使用,本公司不会因接收人收到本报告而视其为本公司的当然客户。 若您并非前述等级的投资者,为保证服务质量、控制风险,请勿订阅本报告中的信息, 本资料难以设置访问权限,若给您造成不便,敬请谅解。 在任何情况下,本报告的内容不构成对任何人的投资建议,也没有考虑到个别客户 特殊的投资目标、财务状况或需求,方正证券不对任何人因使用本报告所载任何内容 所引致的任何损失负任何责任,投资者需自行承担风险。
110. 本报告版权仅为方正证券所有,本公司对本报告保留一切法律权利。未经本公 司事先书面授权,任何机构或个人不得以任何形式复制、转发或公开传播本报告的 全部或部分内容,不得将报告内容作为诉讼、仲裁、传媒所引用之证明或依据,不 得用于营利或用于未经允许的其它用途。如需引用、刊发或转载本报告,需注明出 处且不得进行任何有悖原意的引用、删节和修改。 公司投资评级的说明 强烈推荐:分析师预测未来半年公司股价有20%以上的涨幅; 推荐:分析师预测未来半年公司股价有10%以上的涨幅; 中性:分析师预测未来半年公司股价在-10%和10%之间波动; 减持:分析师预测未来半年公司股价有10%以上的跌幅。 行业投资评级的说明 推荐:分析师预测未来半年行业表现强于沪深300指数; 中性:分析师预测未来半年行业表现与沪深300指数持平; 减持:分析师预测未来半年行业表现弱于沪深300指数。
111. THANKS 专注 专心 专业 联系人: 李萌 limeng1@foundersc.com 方正证券研究所 北京市西城区展览路48号新联写字楼6层 上海市静安区延平路71号延平大厦2楼 深圳市福田区竹子林四路紫竹七路18号光大银行大厦31楼 广州市 黄埔大道西638号农信大厦3A层方正证券 长沙市天心区湘江中路二段36号华远国际中心37层

ホーム - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-15 06:14
浙ICP备14020137号-1 $お客様$