深度学习模型架构的演进和趋势

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 深度学习模型架构的演进和趋势 单瀛 博士 腾讯杰出科学家、PCG应用研究中心主任
3. 李世石和AlphaGo 对局的最后瞬间 (右图,2016.03.15) 李世石退役 (2019.11.19) “Even if I become the number one,there is an entity that cannot be defeated”
4. 解决问题的传统范式:格物致知
5. 抽象 对象 观测 观测值 观测值 建模 偏差 模型 预测 预估值 预估值
6. 革命性的变化 传统范式 对象 观测 观测值 观测值 烧脑建模 偏差 模型 预估值 预测 深度学习范式 预估值 对象 观测 观测值 观测值 烧卡建模 偏差 模型 预估值 预测 预估值
7. 深度学习极简史 第二个冬天
8. 第二个冬天:蛰伏 • 1995年,SVM开始崛起,⻛头盖过神经网(下图) • 2000年前后,Lecun、Hinton神经网文章被拒 LeCun的神预言 加拿大先进研究院(CIFAR)为神经网络保留了火种
9. 萌芽 • 神经网络被重新包装成 了“深度学习” • 2006年,实验显示深度 神经网“可训练”
10. 柳暗花明 大算力:Hinton,Ng都想到了用GPU加速(70倍),2009-10 大数据:Microsoft入局提供了语音识别大数据,2011-12
11. 一鸣惊人(2012) 大数据:ImageNet, 1500万图片 模型架构:深度CNN AlexNet 大算力: NVIDIA GTX 580 3GB GPU
12. 深度学习范式 对象 观测 观测值 博美犬 观测值 烧卡建模 偏差 深度模型 模型 博美犬:0.65 科顿狗:0.35 预估值 预测 预估值
13. Hinton的反思 1. 我们的数据集小了好几千倍 1 2. 我们的计算机慢了好几百万倍 对象 观测 2 观测值 烧卡建模 预测 模型 3 3. 我们的初始化方法有点笨 观测值 4. 我们的非线性神经元用错了类型 偏差 预估值 4 预估值
14. 计算框架推波助澜 内驱力 之 GPU算力提升和计算框架的易用性提升 图片来源: https://www.nextplatform.com/2019/07/10/a-decade-of-accelerated-computing-augurs-well-for-gpus
15. Design Patterns的逐步完备
16. 大道至简:Perceptron
17. 深度卷积 AlexNet模型架构 同类模型的战绩
18. 深度残差 单个模型的高度
19. RNN(时序) 自动生成的Latex文档 输入⻔ 遗忘⻔ 输出⻔
20. 神经图灵机(可导存储读写) Neural Turing machines (NTM) ● RNN或 LSTM 模式识别(神经网络)+ 符号运算(传 统计算机) ● Differentiable Neural Computers (DNC) , Nature 能够学到像copy、排序、最短路径、 关联记忆等一般神经网络学不到的算法 ● 为神经网引入了外存和可导读写的技术
21. GAN 高清人脸生成
22. 自编码器 AE 生成 去噪 VAE 压缩
23. 积木组合:Deep Crossing Deep Crossing: 最早在点击预测中引入 深度学习的模型之一 KDD2016 残差网 + 前向网
24. 积木组合:Deep Embedding Forest Deep Embedding Forest: Deep Crossing换一个帽子 KDD2017
25. 积木组合:双流网络 前向网 前向网 卷积网 卷积网 高效检索,但缺乏语义交互
26. 积木组合:Recurrent Binary Embedding RBE: 第一个10亿级实时 (29ms)穷尽检索 多重 自编码 算法和GPU实现 前向网 KDD2018 卷积网
27. 超级组合:Transformer encoder模块 • 延续encoder-decoder架构 • 以self-attention+MLP的模块 替换原有LSTM/GRU decoder encoder encoder decoder模块
28. 超级组合:Bridgeformer ARC Lab自研 BridgeFormer (CVPR 2022 Oral) 提出新的多模态预训练design pattern, 继承单/双流网络优势 Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” • 七个公共数据集SOTA+,包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类任务 “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2).”
29. 迈向多模态:多种模态组合输入 Multi-modal 图片 + 视频 + 三维深度信息 文字 + 图片 OMNIVORE@Meta & ViLT@NAVER: a unified Transformer architecture for multimodal data
30. 迈向多模态:多种模态组合输入 Multi-modal 图片 + 音频 + 文字 data2vec@Meta: a unified pretext task of masked signal modeling to pretrain speech, vision and language data
31. 迈向多任务:一个模型服务多个任务 Multi-task ● 图片识别 ● 语言理解 ● 多模态推理 FLAVA@Meta: a language-vision model that can be applied to target a broad scope of tasks from three domains (visual recognition, language understanding, and multimodal reasoning) under a common transformer model architecture.
32. 迈向多任务:一个模型服务多个任务 Multi-task ● 图片识别 ● 图文匹配 ● 图片标题生成 CoCa@Google: an image-text foundation model that can be applied for captioning tasks besides the ones FLAVA did.
33. 迈向多形态:不同任务统一接口,模型高度融合 Multi-embodiment 检 测 关 键 点 分 割 文 本 描 述
34. 迈向多形态:不同任务统一接口,模型高度融合 Multi-embodiment 不同的任务形态 基于seq2seq design pattern的统一接口
35. 迈向多形态:不同任务统一接口,模型高度融合 Multi-embodiment Pix2Seq@Google: a unified sequence interface for vision tasks
36. 迈向多态一体:多模态 + 多任务 + 多形态 Gato@Deepmind: a multi-modal, multi-task, multi-embodiment generalist policy
37. 从大到小:服务细分业务 • 通用大模型存在部署瓶颈和能力 边界 • 落地需采取预训练 + 特定任务微 调的路径 • 甚至还需要构建一个业务基础模 型确保性能
38. 从大到小:服务细分业务 ARC Lab自研 mc-BEiT (ECCV 2022)提出新的图像预训练design pattern, 取得下游图像分类、检测等SOTA 竞品预训练算法 ImageNet 图像分类微调后精度 模型1 83.2% 模型2 83.6% 模型3 83.8% Ours 84.1%
39. 从大到小:服务细分业务 “小”模型优选 ARC Lab自研算法(ECCV 2022):Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space
40. 腾讯PCG简介
41. 内容多样性 X 算法需求的多样性
42. ARC Lab arc.tencent.com
43. 智能内容实战 之 深度学习模型架构在视频复原中的应用 《会动的老照片》:修复 + 人脸驱动 李 焕 英 年 轻 时 旧 照 修 复 后 GFP-GAN: Towards Real-World Blind Face Restoration with Generative Facial Prior (CVPR 2021) 动 起 来
44. 智能内容实战 之 表情包文字抹除 深度学习模型架构在文本抹除中的应用 文本检测 (DBNet) 文本分割 (PGTSNet) 膨胀 &拼接 Inpainting (DeepFillV2) SOTA BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild (CVPR 2022 Oral) OURS
45. 智能内容实战 之 深度学习模型架构在多模态检索中的应用 Bridging Video-text Retrieval with Multiple Choice Questions (CVPR 2022 Oral) 查询: 绑着粉红色 蝴蝶结的羊 驼,一动不 动的趴在售 卖羊驼毛绒 玩具的⻔ 口,来回张 望。 查询: 小狗在山 顶看日出
46. 智能内容实战 之 深度学习模型架构在人物分割/抠图中的应用 Temporally Efficient Vision Transformer for Video Instance Segmentation (CVPR 2022 Oral)
47. 智能内容实战 之 深度学习模型架构在视频封面生成中的应用 视频平台原始静态封面 自动生成的视频封面(片段定位+高光检 测) Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection (CVPR 2022)
48. 模型架构演进驱动组织架构的变化 ML模型优化 10% 算法工程师 特征融合 DL专用业务模型优化 90% 算法工程师 数据清洗 & 特征设计 90% 算法工程师 特征工程时代 (~2012) 数据清洗 & 标注 10% 算法工程师 & 数据工程师 深度学习时代 (2012~2020) DL专用业务模型优化 数据清洗 & 标注 10% 算法工程师 & 数据工程师 40% 算法工程师 DL通用基础模型 50% 算法工程师 通用深度学习时代 (2020~)
49. 认知黑盒困境(Epistemic Opacity Dilemma) 正是那些赋予深度学习几乎 无边能力的参数和设计导致 了潜在的不确定性和危险性 不透明 不确定 不可控
50. 可解释性问题 谷歌上搜索“可解释机器学习”的趋势,深度模型是最大的黑盒 可解释性建模的一个可能的解决方案
51. 任重道远 453吨煤 一杯咖啡
52. 任重道远 453吨煤 一杯咖啡
53. 任重道远 453吨煤 一杯咖啡
54. 任重道远 453吨煤 一杯咖啡

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-18 00:43
浙ICP备14020137号-1 $Map of visitor$