开源大模型创新背后的 RISC-V 算力架构革新
如果无法正常显示,请先停止浏览器的去广告插件。
1. 开源大模型创新背后的
RISC-V 算力架构革新
演讲人:苏中
2.
3. 人工智能发展:从符号主义到链接主义
符号主义的鼻祖:亚里士多德与他的三段论
All men are mortal.
Socrates is a man.
Therefore, Socrates is
mortal
所有人都会死。
苏格拉底是人。
因此,苏格拉底会死。
亚里士多德《Prior Analytics》拉丁文版
约1290年,佛罗伦萨劳伦齐亚纳医学院图书馆
亚里士多德 Ἀριστοτέλης Aristotél
(古希腊 公元前384–公元前322年)
https://en.wikipedia.org/wiki/Aristotle
4. 符号主义的发展
符号主义的发展:从第一个AI程序Logic Theorist,专家系统的成功到日本第五代计算机计划
Logic Theorist:第一个人工智能程序(第一个特别设计用于模仿人类解
决问题能力的程序)由赫伯特· 西蒙(Herbert Simon),艾伦· 纽厄尔(Allen
Newell)和约翰· 肖(John Shaw)于1955年至1956年创建,在数学定理证明
方面取得突破。
https://en.wikipedia.org/wiki/History_of_artificial_intelligence
https://www.aikatana.com/p/legacy-japans-fifth-generation-computer-systems-fgcs-project-ai
https://archive.org/details/fifthgeneration00edwa/mode/2up?view=theater
第五代电脑是日本通商产业省于1982年的一个大型研发计划,其目的为
开发一部划时代的电脑,利用大量平行计算,使它拥有超级电脑的运算效
能和可用的人工智能能力。
5. 链接主义的起步,来自于人类对于脑的认识
智能的来源:结构与规模
桑地亚哥· 拉蒙· 伊· 卡哈尔
(1852-1934、西班牙)
Ramón y Cajal in 1899
1906年诺贝尔生理学/医学奖
1899年绘制的鸽子小脑普金耶细
胞(A)和颗粒细胞(B)图
https://en.wikipedia.org/wiki/Santiago_Ram%C3%B3n_y_Cajal
《comparative study of the sensory areas of
the human cortex》, 1900
6. 人工智能的评测标准:图灵实验
图灵发明的“炸弹”,它是一种机电计算装置,二战期
间成功破译了德国恩尼格玛机加密的信息
艾伦 图灵 Alan Mathison Turing
(英国 1912–1954)
https://en.wikipedia.org/wiki/Alan_Turing
https://en.wikipedia.org/wiki/Bombe#/media/File:Wartime_picture_of_a_Bletchley_Park_Bombe.jpg
7. 人工神经元网络:从感知机到深度学习
人工智能的发展:规模与结构
人类视觉皮层的纵向切面(横放)桑地亚哥· 拉蒙· 伊· 卡哈尔,1900
Geoffrey Hinton
https://viso.ai/deep-learning/alexnet/
https://awards.acm.org/about/2018-turing
深度学习技术的引爆点:图像识别的AlexNet 架构。
它由 8 层组成:5 个卷积层和 3 个全连接层
Yann LeCun
8. AlexNet:AI算力架构从CPU转向GPU的起点
CPU
GPU
计算
电路 计算
电路
计算
电路 计算
电路
控制电路
AlexNet=
6000万个参数
+65万个神经元
+卷积神经网络的高性能C++/CUDA实现
+2*GTX580 GPU
缓存电路
•
• 计算密度相对低
复杂的控制电路,应对复杂的运算
• 庞大的缓存电路,缓存数据
•
• 计算密度高
能做的运算的计算复杂度低
• 内存访问的带宽高
该模型由Alex Krizhevsky与多伦多大学的Ilya
Sutskever和博士顾问Geoffrey Hinton于2012年
合作开发@University of Toronto
9. 人工智能的发展:从感知到认知
基于Transformer架构的大模型
大语言模型的发展带来对于算力无尽的需求
神经网络语言模型
与词向量的推出
1960
1970
2003
Word2Vec训练方法,
上下文语义学习
2010
RNN循环神经网路用
于NLP
2013
OpenAI推出GPT3
模型,参数规模
1750亿
OpenAI推出GPT1
模型
2018
2017
Transformer架构提
出,成为大模型的基础
结构
1.
2.
3.
2019
2020
OpenAI提出GPT-2模型
谷歌提出BERT模型
谷歌提出T5模型
阶段三(2003-至今)
基于神经网络(链接主义)
阶段二(1970-至今)
基于概率与统计
阶段一(1960-至今)
基于语法与规则(符号主义)
•
•
•
OpenAI发布GPT4
Meta推出开源模型LLaMA2
中国迎来了“百模大战”
2022
OpenAI推出
ChatGPT
2023
2025
DeepSeek R1
正式发布
10. 当前计算架构无法满足未来的需求
从大语言模型进一步发展到多模态,AI的“读万卷书”和“行万里路”
• 人工智能的发展,完全颠覆了算力实际需求增长速度,计算架构重构成为唯一出路
11. 未来十年是计算架构创新的黄金10年
算力瓶颈、存力瓶颈、互联瓶颈亟待突破
Input Device
Central Processing Unit
Control Unit
Arithmetic/Logic Unit
技术趋势:面向领域的架构(DSA)将支撑计算机体系结构黄
金十年
现代计算机之父 约翰· 冯· 诺伊曼
RISC架构先驱、图灵奖获得者John Hennessy和David Patterson教
Memory Unit
授预测,随着摩尔定律的放缓,计算机体系结构方面形成突破变得尤
其重要,未来十年是DSA架构的黄金十年;
Output Device
冯诺伊曼架构
新突破方向有:面向领域软硬件协同设计,增强的安全技术,开源的
指令架构和敏捷开发
正式提出了RISC-V是新架构创新的底座
12. RISC-V:最适合AI时代高性能CPU打造的架构
开放技术底座加上可扩展的能力是实现AI时代最佳算力
•
•
•
•
•
•
•
PC时代 移动时代
(1980年代 – 2000年代) (2000年代 – 2020年代)
通用计算能力要强
以X86架构成为主流
X86架构完全闭源,
架构不可定制
•
•
•
功耗要低
ARM架构成为主流
ARM架构采用授权
模式,但由单独公
司掌握,定制化程
度低
AI时代
(2020年代-)
•
•
•
新架构的演进能力、定制化能力要强
以RISC-V为代表的开源精简指令集成为CPU架构创新主要力量
开源、开放的特性,为基于RISC-V架构的产品带来以下优势:
硬件架构
可扩展的模块化指令集体系
针对AI不断完善的RISC-V Vector / Matrix / Tensor扩展
开源、自主可控的指令集
软件生态
经过多年发展,X86架构与ARM架构在PC、移动场景
各自拥有丰富的软件生态
闭源模式的中心化驱动,对AI的支持需要代际间的大
版本更新
CPU IP根技术依存于少数企业,缺乏自主权
传统架构对于异构可扩展性的支持仍然有待加强
开源软件体系
日趋成熟的基础生态
快速覆盖的应用生态
应用落地
灵活度更高的商业模式
易于根据实际需求平衡计算、内存和互联能力
Scale Up & Scale Out潜力巨大
13. 全球都在推动RISC-V架构在AI方面的演进
打开开源硬件之门,以无限潜力获得更多成功可能
RISC-V更适配AI高性能计算场景
成本更低
历史包袱小
RISC-V架构创新尝试
无需购买CPU IP授权
每代新产品无需重新购买
X86架构:3600+条指令
ARM架构:1000+条指令
RISC-V架构:47条基础指令
AI+CPU AI
CPU AI (PIM)
CPU+AI
CPU IP
功耗小
灵活性好
硬件逻辑设计相对简洁
能效比高且功耗小
支持可拓展指令
支持模块化指令子集
AI
RISC-V创造了开源硬件的无限潜力
•
从通用计算到AI计算、图形计算、隐私计算、
科学计算等各种计算场景,RISC-V以其开源
特性带来的创新颗粒度,拥有更多的成功可
能
14. RISC-V处理器性能不断提升
SPECint2006评分每两年提升2/GHz
SpecInt2006/GHz
AMD Zen4
AMD Zen3
20+
Apple M3
Intel Sapphire Rapids
Intel Ice Lake
18
SiFive P870
Ventana Veyron V2
16
香山 昆明湖
14
2025 RISC-V标杆产品
玄铁930
SiFive P670
12
10
赛昉 天枢
SiFive P550
8
香山 雁栖湖
玄铁C910
6
SiFive U74
4
SiFive U54
2
蜂鸟E200
0
2016
2017
玄铁C902
2018
2019
2020
2021
2022
2023
2024
2025
15. 立足中国走向世界:AI国际标准建设竞争激烈
架构1:与vector寄存器独立
( Intel、Apple、DAMO Academy、
Streamcomputing )
Matrix的本质优势
Matrix Registers
Scalar:1 element --- 1 operation
Vector:N elements --- N operation
Matrix:N 2 elements --- N 3 operation
架构2:复用vector寄存器资源
( SiFive )
Matrix Extension
Vector Extension
Matrix Extension
Vector Registers
Vector Registers
Integrated Matrix TG
Attached Matrix TG
两种Matrix架构特点对比
Vector Extension
Attached Matrix
Integrated Matrix
算力 与Vector解耦,Matrix算力可灵活配置,可方便实现大算力 受限于Vector算力,Matrix/Vector算力配比相对固定
拓扑 支持灵活拓扑结构,包括多核共享Matrix算力 仅支持单核独享
与Vector松耦合,频率支持异步,时序功耗更加友好 与vector紧耦合,与CPU同频,大算力下频率功耗物理实现不易收敛
指令力度大,对前端取指压力小 指令力度较小,前端取指带宽占用大
需要额外Matrix寄存器资源,执行单元可以设计更加高效 无需专用Matrix寄存器资源,同算力下执行单元较attached架构更大
需增加额外Matrix相关context维护 复用vector资源
硬件实现
前端带宽占用
资源
软件编程
16. RISC-V从技术走向产品再到生态
全产业链协作,聚焦标杆产品研发,
并形成“技术创新-产品研发”与“产品研发-生态建设”的正面双循环
技术创新促进产品迭代
技术创新
开放的标杆产品为生态吸引
更多软硬件开发者
标杆产品研发
标准化建设规范技术创新
完善生态反哺标杆产品迭代
生态建设
17.
18. MAKE COMPUTING MORE EFFICIENT