大模型认知智能时代的新架构
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2.
3. 大模型认知时代的新架构
粤港澳大湾区数字经济研究院
(IDEA Research)
张家兴
讲席科学家
4. 认知智能范式演变
机器学习
特征工程
深度学习
网络结构
大模型时代
预训练+下游任务训练
5. 预训练大模型
生成:更美好
预训练
海量文本数据
输入:人工智能让世界变得
6. 大模型时代
大模型的参数规模每年增加
机器问答
情感分析
信息抽取
预训练大模型
文案生成
物体识别
10 倍
7. 大模型给机器认知智能带来了什么
上千亿的神经元连接就是一个强大的记忆体
记忆
人脑中有一个先天的语法机器
语法
类比
类比,是思考之源和思维之火
人对世界的理解和推理离不开知识
知识
先验
面对一个新任务,人不是一张白板
8. 大模型给AI架构带来了新的思考
9. 记忆 :模型即数据
256张A100
学习28小时
什么是数据
数据
100GB文本数据 35亿个参数 (gpt-2模型)
原数据 给定起始文本
利率:
1年月费率0.78%,年费率
9.38%;
2年月费率0.77%,年费率
9.26%; 利率:
1年月费率0.78%,年费率
9.38%;
2年月费率0.77%,年费率
9.26%;
3年月费率0.78%,年费率
9.38%;
4年月费率0.80%,年费率
9.55%;
100 Billion Bytes
3年月费率0.78%,年费率
9.38%;
4年月费率0.80%,年费率
9.55%;
可查询可枚举的结构就是数据
3.5 Billion Parameters
5年月费率0.82%,年费率
9.61%;
6年月费率0.83%,年费率
9.72%;
Model as Data
模型生成文本
存算一体 模糊 检索高效
Impression Store -- 印象存储
10. 知识 :模型即知识
Knowledge as Graph
50GB
医疗领域文本
256张A100
学习7天
35亿参数 GPT-2模型
问答
Input: I have a influenza. The symptoms are
输入:我得了流感,症状是
Output:fever, cough, headache, myalgia,
sore throat, nasal congestion, and
headache.
输出:发烧、咳嗽、头痛、肌痛、喉咙痛、鼻
塞和头痛。
Input: The treatment for influenza is
输入:流感的治疗方法是
Output:the antiviral drugs zanamivir,
oseltamivir and laninamivir.
输出:抗病毒药物扎那米韦、奥司他韦和拉那
米韦。
算法+人力
Knowledge as Text
知识图谱
实体关系判定
文本数据
实体关系(扎那米韦,可以治疗,流感)
Zanamivir can treat influenza.
扎那米韦可以治疗流感。 Zanamivir can not treat influenza.
扎那米韦不可以治疗流感。
PPL:62 PPL:79
62<79
事实成立
算力
Knowledge as Model
大模型
存储+表示+查询+推理
11. 先验 :用计算追上几百万年的差距
自监督预训练
•
古猿
海量未标注文本
智人
六百万年人类进化
有监督预训练
婴儿
ZeroCLUE 零样本学习任务
成年
几十年学习
• 10个数据集
• 119万有标注样本
• 语义匹配、情感分析、自然语言推理、
新闻分类等任务
快速学习
先验 = 预训练
任务学习
ZeroCLUE
排名第1
ZeroCLUE
排名第1
ZeroCLUE
排名第1
预训练
数据+算力
通用模型
为什么要先天的计算
3亿参数模型
新任务
后天任务学习样本更少
后天任务学习速度更快
减少整体计算量
任务学习
任务学习
12. IDEA研究院13亿参数预训练大模型“二郎神”
中文小样本学习FewCLUE榜单第一名
两项任务超越人类
三项任务刷新纪录
13. 类比 :突破数据稀缺瓶颈
句子空间的蒙特卡洛树搜索
1. 大城市这个问题需要引起重视
51. 小升初,去农村还是县城?
101. 择校,是市区农村学校好还是县乡村小学的好?
任务A
大数据 任务B
大数据
任务A
小数据 任务B
小数据
301. 中国年轻老师选择去农村小学, 还是县城?
大模型
蒙特卡洛树搜索
数据放大器
逐步逼近原句
29亿参数模型
top-p 采样
Top-p采样
“年轻教师选择农村学校,还是县
城学校?”的相似句式
迭代次数
14. GTS :大模型时代的机器学习新框架
T eacher
知识蒸馏
S tudent
大模型
小模型
样本生成
样本生成
G enerator
大模型
有标签
数据
无标签
数据
场景落地
15. 从机器学习到学习机器
类别:“商品正面评价”
样本:“用了之后又买了一个”
Human as Environment
描述和样本
Human in Loop
样本和问题
“用了之后就再也不买了”是商品正面评价吗?
学习机器
认知机器人
交互式学习
让机器像人一样去学习
16. 大模型落地
17. 本质性瓶颈
算力 人才
18. 模型开源 :合作共赢
获取
贡献
模型
模型
结构
模型
模型
大模型空间
模型
模型
模型
模型
继续训练
统一模型
编解码模型
开源模型体系
双向模型
单向模型
医疗
金融
科技
领域
算力
团队
1亿
10亿
100亿
1000亿
尺寸
团队
数据
数据
算力
数据
19. 自动化模型生产: 取代算法工程师
API
学生模型
任务
训练数据
模型生产平台
全自动无人参与
新的系统
架构挑战
算法模块调度
效果 vs 效率
离线 vs 在线
模型下载
编程框架
基础NLP模型
分类
相似度
实体识别
关系抽取
事件抽取
摘要
… …
新的系统
抽象层
高级AI应用
新的AI
架构设计
20. 未来AI新架构
AI应用系统与算法
存储数据
数据大模型
存储知识
知识大模型
定制化模型
模型生产平台
认知智能基础
先验模型
开源大模型
数据增强
类比大模型
IDEA研究院
让未来发生
21.
22.