深度学习模型架构的演进和趋势

1.

2. 深度学习模型架构的演进和趋势单瀛博士腾讯杰出科学家、PCG应用研究中心主任

3. 李世石和AlphaGo 对局的最后瞬间（右图，2016.03.15）李世石退役（2019.11.19） “Even if I become the number one，there is an entity that cannot be defeated”

4. 解决问题的传统范式：格物致知

5. 抽象对象观测观测值观测值建模偏差模型预测预估值预估值

6. 革命性的变化传统范式对象观测观测值观测值烧脑建模偏差模型预估值预测深度学习范式预估值对象观测观测值观测值烧卡建模偏差模型预估值预测预估值

7. 深度学习极简史第二个冬天

8. 第二个冬天：蛰伏 • 1995年，SVM开始崛起，⻛头盖过神经网（下图） • 2000年前后，Lecun、Hinton神经网文章被拒 LeCun的神预言加拿大先进研究院（CIFAR）为神经网络保留了火种

9. 萌芽 • 神经网络被重新包装成了“深度学习” • 2006年，实验显示深度神经网“可训练”

10. 柳暗花明大算力：Hinton，Ng都想到了用GPU加速（70倍），2009-10 大数据：Microsoft入局提供了语音识别大数据，2011-12

11. 一鸣惊人（2012）大数据：ImageNet, 1500万图片模型架构：深度CNN AlexNet 大算力： NVIDIA GTX 580 3GB GPU

12. 深度学习范式对象观测观测值博美犬观测值烧卡建模偏差深度模型模型博美犬：0.65 科顿狗：0.35 预估值预测预估值

13. Hinton的反思 1. 我们的数据集小了好几千倍 1 2. 我们的计算机慢了好几百万倍对象观测 2 观测值烧卡建模预测模型 3 3. 我们的初始化方法有点笨观测值 4. 我们的非线性神经元用错了类型偏差预估值 4 预估值

14. 计算框架推波助澜内驱力之 GPU算力提升和计算框架的易用性提升图片来源: https://www.nextplatform.com/2019/07/10/a-decade-of-accelerated-computing-augurs-well-for-gpus

15. Design Patterns的逐步完备

16. 大道至简：Perceptron

17. 深度卷积 AlexNet模型架构同类模型的战绩

18. 深度残差单个模型的高度

19. RNN（时序）自动生成的Latex文档输入⻔遗忘⻔输出⻔

20. 神经图灵机（可导存储读写） Neural Turing machines (NTM) ● RNN或 LSTM 模式识别（神经网络）+ 符号运算（传统计算机） ● Differentiable Neural Computers (DNC) , Nature 能够学到像copy、排序、最短路径、关联记忆等一般神经网络学不到的算法 ● 为神经网引入了外存和可导读写的技术

21. GAN 高清人脸生成

22. 自编码器 AE 生成去噪 VAE 压缩

23. 积木组合：Deep Crossing Deep Crossing: 最早在点击预测中引入深度学习的模型之一 KDD2016 残差网 + 前向网

24. 积木组合：Deep Embedding Forest Deep Embedding Forest: Deep Crossing换一个帽子 KDD2017

25. 积木组合：双流网络前向网前向网卷积网卷积网高效检索，但缺乏语义交互

26. 积木组合：Recurrent Binary Embedding RBE：第一个10亿级实时（29ms）穷尽检索多重自编码算法和GPU实现前向网 KDD2018 卷积网

27. 超级组合：Transformer encoder模块 • 延续encoder-decoder架构 • 以self-attention+MLP的模块替换原有LSTM/GRU decoder encoder encoder decoder模块

28. 超级组合：Bridgeformer ARC Lab自研 BridgeFormer (CVPR 2022 Oral) 提出新的多模态预训练design pattern，继承单/双流网络优势 Q1 Q2 “An old couple/[?] (Q1) are drinking coffee, and there is a plate of bread/[?] (Q2) on the table in front of them.” • 七个公共数据集SOTA+，包括零样本、微调等评测基准 • 涵盖视频-文本检索、动作分类任务 “Parents and kids are playing football/[?] (Q1) on the countryside lawn/[?] (Q2).”

29. 迈向多模态：多种模态组合输入 Multi-modal 图片 + 视频 + 三维深度信息文字 + 图片 OMNIVORE@Meta & ViLT@NAVER: a unified Transformer architecture for multimodal data

30. 迈向多模态：多种模态组合输入 Multi-modal 图片 + 音频 + 文字 data2vec@Meta: a unified pretext task of masked signal modeling to pretrain speech, vision and language data

31. 迈向多任务：一个模型服务多个任务 Multi-task ● 图片识别 ● 语言理解 ● 多模态推理 FLAVA@Meta: a language-vision model that can be applied to target a broad scope of tasks from three domains (visual recognition, language understanding, and multimodal reasoning) under a common transformer model architecture.

32. 迈向多任务：一个模型服务多个任务 Multi-task ● 图片识别 ● 图文匹配 ● 图片标题生成 CoCa@Google: an image-text foundation model that can be applied for captioning tasks besides the ones FLAVA did.

33. 迈向多形态：不同任务统一接口，模型高度融合 Multi-embodiment 检测关键点分割文本描述

34. 迈向多形态：不同任务统一接口，模型高度融合 Multi-embodiment 不同的任务形态基于seq2seq design pattern的统一接口

35. 迈向多形态：不同任务统一接口，模型高度融合 Multi-embodiment Pix2Seq@Google: a unified sequence interface for vision tasks

36. 迈向多态一体：多模态 + 多任务 + 多形态 Gato@Deepmind: a multi-modal, multi-task, multi-embodiment generalist policy

37. 从大到小：服务细分业务 • 通用大模型存在部署瓶颈和能力边界 • 落地需采取预训练 + 特定任务微调的路径 • 甚至还需要构建一个业务基础模型确保性能

38. 从大到小：服务细分业务 ARC Lab自研 mc-BEiT (ECCV 2022)提出新的图像预训练design pattern，取得下游图像分类、检测等SOTA 竞品预训练算法 ImageNet 图像分类微调后精度模型1 83.2% 模型2 83.6% 模型3 83.8% Ours 84.1%

39. 从大到小：服务细分业务 “小”模型优选 ARC Lab自研算法（ECCV 2022）：Not All Models Are Equal: Predicting Model Transferability in a Self-challenging Fisher Space

40. 腾讯PCG简介

41. 内容多样性 X 算法需求的多样性

42. ARC Lab arc.tencent.com

43. 智能内容实战之深度学习模型架构在视频复原中的应用《会动的老照片》：修复 + 人脸驱动李焕英年轻时旧照修复后 GFP-GAN: Towards Real-World Blind Face Restoration with Generative Facial Prior (CVPR 2021) 动起来

44. 智能内容实战之表情包文字抹除深度学习模型架构在文本抹除中的应用文本检测 (DBNet) 文本分割 (PGTSNet) 膨胀 &拼接 Inpainting (DeepFillV2) SOTA BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild (CVPR 2022 Oral) OURS

45. 智能内容实战之深度学习模型架构在多模态检索中的应用 Bridging Video-text Retrieval with Multiple Choice Questions (CVPR 2022 Oral) 查询：绑着粉红色蝴蝶结的羊驼，一动不动的趴在售卖羊驼毛绒玩具的⻔口，来回张望。查询：小狗在山顶看日出

46. 智能内容实战之深度学习模型架构在人物分割/抠图中的应用 Temporally Efficient Vision Transformer for Video Instance Segmentation (CVPR 2022 Oral)

47. 智能内容实战之深度学习模型架构在视频封面生成中的应用视频平台原始静态封面自动生成的视频封面（片段定位+高光检测） Unified Multi-modal Transformers for Joint Video Moment Retrieval and Highlight Detection (CVPR 2022)

48. 模型架构演进驱动组织架构的变化 ML模型优化 10% 算法工程师特征融合 DL专用业务模型优化 90% 算法工程师数据清洗 & 特征设计 90% 算法工程师特征工程时代 (~2012) 数据清洗 & 标注 10% 算法工程师 & 数据工程师深度学习时代 (2012~2020) DL专用业务模型优化数据清洗 & 标注 10% 算法工程师 & 数据工程师 40% 算法工程师 DL通用基础模型 50% 算法工程师通用深度学习时代 (2020~)

49. 认知黑盒困境（Epistemic Opacity Dilemma）正是那些赋予深度学习几乎无边能力的参数和设计导致了潜在的不确定性和危险性不透明不确定不可控

50. 可解释性问题谷歌上搜索“可解释机器学习”的趋势，深度模型是最大的黑盒可解释性建模的一个可能的解决方案

51. 任重道远 453吨煤一杯咖啡

52. 任重道远 453吨煤一杯咖啡

53. 任重道远 453吨煤一杯咖啡

54. 任重道远 453吨煤一杯咖啡