阿里云上深度学习建模实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 阿里云深度学习实践
程孟力
花名: 杨熙
阿里巴巴-计算平台-PAI
2.
3. 深度学习应用场景
更多场景
沙漠 湖泊 旅行
个性化推荐
视频理解
智能对话系统
图像检索
优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … )
OCR识别
人脸核身
智能风控
自动驾驶
语音助手
• • •
4. 深度学习应用主要的挑战:
• 多个环节
• 多种模型
2.模型效果优
化困难
1.方案复杂
深度模型是非线性的:
• 参数很多
• 参数敏感
• 不同场景的数据上差异大
挑战
✗ 海量参数
✗ 海量数据
3.工程优化复
杂
从FM到DeepFM rt 增
加了10倍怎么优化?
4.数据获取困
难
手里面只有5张图片,
怎么搞出来一个效果还
不错的模型?
✗
✗
✗
✗
标注速度慢
标注成本高
样本分布不均匀
隐私保护
5. 深度学习应用主要的挑战:
• 多个环节
• 多种模型
2.模型效果优
化困难
1.方案复杂
深度模型是非线性的:
• 参数很多
• 参数敏感
• 不同场景的数据上差异大
挑战
✗ 海量参数
✗ 海量数据
3.工程优化复
杂
从FM到DeepFM rt 增
加了10倍怎么优化?
4.数据获取困
难
手里面只有5张图片,
怎么搞出来一个效果还
不错的模型?
✗
✗
✗
✗
标注速度慢
标注成本高
样本分布不均匀
隐私保护
6. 1.方案复杂
流程长、环节多:
问题:
推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动
✗ 方案复杂周期长/见效慢
✗ 细节多难免踩坑
实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸
识别
…
模型构建:
Data
要求:
准确: 低噪声
全面: 同分布
Model
Compute
Platform
模型选型: 训练推理:
容量大
计算量小 高qps, 低rt
支持超大模型
性价比
解决方案: 标准化
标准化模型库
标准化解决方案
7. 标准化: Standard Libraries and Solutions
Solutions 图像
Librarys EasyVision
语音
优势:
MPI
视频理解
MLP
CNN
Parameter Server
推荐
搜索
EasyRec
EasyTransfer
Components TreeModel
Framework
NLP
RNN
Tensorflow
GraphLearn
FTRL
GNN
PyTorch
广告
MapReduce
场景丰富: 图像/视频/推荐/搜索 开箱即用: 封装复杂性
大数据+大模型: Model Zoo 白盒化, 可扩展性强
跨场景+跨模态 积极对接开源系统+模型
SGD
SQL
Adam
Blink
8. 标准化: Standard Libraries
EasyRec: 推荐算法库
9. 标准化: Standard Libraries
EasyVision: 图像视频算法库
Classification Segmentation OCR Image Generation
Object Detection Multi-Label Retrieval Video Caption
TextInput
VideoInput
RPNHead CrossEntropy
Vit RCNNHead SmoothL1
Swin MaskHead DiceLoss
Bert SeqHead Contrasive
Resnet
ImageInput
10. 标准化: Standard Libraries
Graph-Learn: 分布式图算法库
功能完备:
GSL/负采样
主流图算法
异构图
(user/item/attribute)
动态图
性能优越:
分布式存储
分布式查询
11. 标准化: Standard Solutions
CV / NLP解决方案:
Data
Label
Model
Serving
EAS
Continuous Optimization:
Active learning
12. 示例: e-Know Your Customer
1
2
证件扫描
• 卡证OCR
• 人脸检测
Mobile
SDK
活体检测
•
3
Web App
customer
+
API
Mobile App
活体检测
人脸比对
On-prem
System
• 人脸比对
eKYC
eKYC Server
多语言、国际化
多种证件版式
准确率领先同类产品
集成方便
eKYC SDK/API
13. 标准化: Standard Solutions
智能推荐解决方案:
推荐请求
PAI-ABTest
A/B流量划分
PAI-Rec – 推荐引擎
排序
BE召回/Hologres
x2i
hot
vec
PAI-EAS – 模型推理
粗排
精排
model1
重排
在线流程
PAI-Studio–建模平台
推荐日志
MaxCompute 样本构造
Flink 离线特征
Datahub 实时特征
训练数据
召
回
模
型
EasyRec
GraphLearn
Alink
模型训练评估
离线流程
排
序
模
型
模
布
发
型
model2 …
14. 标准化: Standard Solutions
智能推荐解决方案 > PAI-REC 推荐引擎
PAI-REC 推荐引擎
PAI-REC平台
自动化降级
负载均衡
Pipeline1
平台
支持
多路召回
灰度发布 曝光/状态过滤
超时控制 粗排/精排
PAI-REC 配置中心
Pipeline2
冷启动召
回
冷启动排
序
置
配
拉取
AB实验
实验工具
向量检索
向量引擎
BE/Hologres/Faiss/Milvus
策略[类目打散、流量控制、…]
读取数据
在线存储
Hologres/OTS
读取
me
tric
实时采集后端日志
BE
Redis
消息队列(datahub/kafka)
监控报警
Prometheus
Grafana
日志SLS
15. 标准化: Standard Solutions
智能推荐解决方案 > 实时推荐方案
16. 深度学习应用主要的挑战:
• 多个环节
• 多种模型
深度模型是 非线性 的 黑盒 :
• 参数很多
• 参数敏感
• 不同场景的数据上差异大
2.模型效果优
化困难
1.方案复杂
挑战
✗ 海量参数
✗ 海量数据
3.工程优化复
杂
从FM到DeepFM rt 增
加了10倍怎么优化?
4.数据获取困
难
手里面只有5张图片,
怎么搞出来一个效果还
不错的模型?
✗
✗
✗
✗
标注速度慢
标注成本高
样本分布不均匀
隐私保护
17. 2.模型效果优化
学习率: 1e-3, 1e-4, 1e-5 ?
Embedding维度: 8, 16, 32 ?
问题: 黑盒
1. 参数太多 / 参数敏感
2. 候选空间大
3. 场景数据相关
Normalization: bn, gn, ln?
激活函数: relu, leaky_relu, swish ?
Backbone: resnet, hrnet, mobilenet, transformer?
解决方案: 超参搜索
效果提升
模型理解
多任务模型: share-bottom, mmoe, ple?
特征选择/生成: Age, sex, comment, click…
模型创新
18. 模型效果优化: 超参数搜索NNI
19. 模型效果优化: EasyRec 超参搜索
DeepFM:
MIND:
[ {
[ {
"type": "Categorical",
"name": "f1.embed_dim",
"candidates": ["16", "32", "48", "64", "80"]
}, {
"type": "Categorical",
"name": ”f2.embed_dim",
"candidates": ["16", "32", "48", "64", "80"]
}
]
"type": "Categorical",
"name": ”capsule_config.routing_logits_scale",
“candidates”:[10, 20, 30]
}, {
"type": "Categorical",
"name": "capsule_config.squash_pow",
"candidates": [0.1,0.2,0.3,0.4]
}
]
ExpId f1.dim f2.dim auc ExpId routing_logits_scale squash_pow hitrate
12 80 80 0.687 6 0.4 20 0.127
9 48 48 0.671 8 0.4 30 0.119
0 64 64 0.669 2 0.3 20 0.108
8 32 32 0.669 9 0.3 10 0.095
3 16 16 0.655 15 0.2 20 0.087
20. 模型效果优化: EasyRec AutoFeature
特征组合 + 特征选择
特征组合
• Count
select count(1) group by col
• GroupByThenMax/Min/Avg/Sum
select max(col2) group by col1
• CrossCount[2]
select count (1) group by col1,col2
特征选择
• Proxy task: GBDT特征选择
• Variational Dropout: 边训练边选择(NAS)
21. 深度学习应用主要的挑战:
• 多个环节
• 多种模型
深度模型是非线性的:
• 参数很多
• 参数敏感
• 不同场景的数据上差异大
2.模型效果优
化困难
1.方案复杂
挑战
✗ 海量参数
✗ 海量数据
3.工程优化复
杂
从FM到DeepFM rt 增加了10
倍怎么优化?
4.数据获取困
难
手里面只有5张图片,
怎么搞出来一个效果还
不错的模型?
✗
✗
✗
✗
标注速度慢
标注成本高
样本分布不均匀
隐私保护
22. 3. 工程优化
训练优化:
数据并行
模型并行
推理优化: Blade
推荐模型优化: 千亿特征
23. 工程优化: 数据并行
RingAllReduce + 层级级联
EasyVision 多机多卡性能对比
24. 工程优化: 模型并行(Whale)
RapidFormer性能
M6模型
Transformer模型: RapidFormer
人脸分类模型: 超大softmax
3D卷积模型
M6模型
25. 工程优化: Blade模型推理
FP16 / Int8
模型剪枝
Op融合(Fusion Stitch)
MILR: Blade Disc
Dynamic Shape Compiler for Machine
Learning Workloads
26. 工程优化: 千亿特征优化
训练:
EmbeddingVariable
[No Hash Conflict]
通信优化
[GRPC++]
Adaptive Embedding 特征准入/淘汰
实时训练 混合精度
[增量更新]
[bf16]
特征选择
[VariationalDropout]
模型蒸馏
Ring All-reduc同步训练
[HybridBackend/SOK]
推理:
AVX/SSE优化
Graph优化
[User Graph去重]
内存Allocate优化
Op Fusion Overlap Execution Sequence Feature
[hash + embedding] [FG OP化] [side info]
ParallelStringOp
[split/type conversion]
Item Feature增量更新
27. 深度学习应用主要的挑战:
• 多个环节
• 多种模型
1.方案复杂
2.模型效果优
化困难 深度模型是非线性的:
• 参数很多
• 参数敏感
• 不同场景的数据上差异大
4.数据获取困
难 ✗
✗
✗
✗
挑战
✗ 海量参数
✗ 海量数据
3.工程优化复
杂
从FM到DeepFM rt 增
加了10倍怎么优化?
手里面只有5张图片,
怎么搞出来一个效果还
不错的模型?
标注速度慢
标注成本高
样本分布不均匀
隐私保护
28. 4. 数据获取困难
问题:
解决方案:
智能标注
自监督学习
多模态预训练
小样本学习
标注成本高
隐私保护
29. 解决方案: 智能标注系统iTags
智能预标注 + 人机协同
智能抠图
智能抠图
智能贴合
30. 解决方案: 自监督学习
Moby: swin-transformer based moco.
Image features
推荐模型特征
图像搜索
31. 解决方案: 多模态预训练
Swin transformer based (Violet)
32. 解决方案: 多模态预训练
Video
Frames
VIT
Image
feature
Title
feature
Title
Bert
OCR
OCR
feature
Vit based
Cls Token
Transformer
decoder
Transformer
decoder
Transformer
decoder
MHSA
Fusion
VTM
Transformer
decoder
Transformer
decoder
下游任务:
视频分类
视频打标签
推荐模型特征
MVM
MTM
33. 解决方案: 小样本学习
小样本结构化模型
34. PAI平台(Platform of Artificial Intelligence)
AI Service
(SaaS)
AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等)
智能标注
可视化建模(Designer)
• 图像、视频、文本、
语音标注
ML
Service
(PaaS )
• 多场景模板:物体检
测、语音识别
• 数据集管理
• JupyterLab、WebIDE • CLI
• 数十个场景化模版 • 多框架兼容 • PAIFlow
• 所见即所得 • 可视化+tensorboard • OpenAPI
分布式训练(DLC)
• 主动学习 • 自定义镜像
• 智能标注 itags • 全托管+半托管
• • 一键部署
超大资源池
Infrastructure
开发者工具
• 200+组件
在线服务(EAS)
• 一键部署、弹性扩缩
在线预测服务(EAS)
• 多框架、多语言
• 分布式训练优化
ML
Frameworks
交互式建模(DSW)
• 多模型
• 蓝绿部署
AI能力
体验中心
• 推理优化Blade
• • 多维度监控+报警
弹性扩缩
• 推理优化
机器学习框架(PAI-TensorFlow/PAI-PyTorch/Caffe /Alink/…)
计算引擎(MaxCompute / EMR / Flink)
生态市场
阿里云容器服务(ACK)
基础硬件(CPU/GPU/FPGA/NPU)
开源
35. PAI平台(Platform of Artificial Intelligence)
Deep Learning Container
36. PAI平台的优势
外循
环
内循
环
提
供
业务场景复杂
促
数据量大而全
促
支撑
对接
进
支撑
先进的模型结构
开源生态
系统
支撑
进
模型
计算力强、性价比高
贡献
生态系统
硬件
37. 参考资料
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
机器学习PAI: https://help.aliyun.com/product/30347.html
阿里灵杰:https://www.zhihu.com/org/a-li-ling-jie
EasyRec: https://github.com/alibaba/EasyRec
推荐解决方案: https://help.aliyun.com/document_detail/161927.html
EasyCV:https://github.com/alibaba/EasyCV
EasyNLP: https://github.com/alibaba/EasyNLP
AliGraph: https://github.com/alibaba/graph-learn
DSW: https://help.aliyun.com/document_detail/194831.html
DLC: https://help.aliyun.com/document_detail/165124.html
EAS: https://help.aliyun.com/document_detail/110980.html
Blade: https://help.aliyun.com/document_detail/205128.html
PaiFlow: https://help.aliyun.com/document_detail/438027.html
Alink: https://github.com/alibaba/Alink
Whale: https://help.aliyun.com/document_detail/428527.html
RapidFormer: https://help.aliyun.com/document_detail/406377.html
HybridBackend: https://github.com/alibaba/HybridBackend
DeepRec: https://github.com/alibaba/DeepRec
iTag: https://help.aliyun.com/document_detail/311182.html
38. 谢谢!
39.
40.