阿里云上深度学习建模实践

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI
2.
3. 深度学习应用场景 更多场景      沙漠 湖泊 旅行 个性化推荐 视频理解 智能对话系统 图像检索 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • •
4. 深度学习应用主要的挑战: • 多个环节 • 多种模型 2.模型效果优 化困难 1.方案复杂 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复 杂 从FM到DeepFM rt 增 加了10倍怎么优化? 4.数据获取困 难 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ ✗ ✗ ✗ 标注速度慢 标注成本高 样本分布不均匀 隐私保护
5. 深度学习应用主要的挑战: • 多个环节 • 多种模型 2.模型效果优 化困难 1.方案复杂 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复 杂 从FM到DeepFM rt 增 加了10倍怎么优化? 4.数据获取困 难 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ ✗ ✗ ✗ 标注速度慢 标注成本高 样本分布不均匀 隐私保护
6. 1.方案复杂 流程长、环节多: 问题:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: Data 要求:  准确: 低噪声  全面: 同分布 Model Compute Platform 模型选型: 训练推理:  容量大  计算量小  高qps, 低rt  支持超大模型  性价比 解决方案: 标准化  标准化模型库  标准化解决方案
7. 标准化: Standard Libraries and Solutions Solutions 图像 Librarys EasyVision 语音 优势: MPI 视频理解 MLP CNN Parameter Server 推荐 搜索 EasyRec EasyTransfer Components TreeModel Framework NLP RNN Tensorflow GraphLearn FTRL GNN PyTorch 广告 MapReduce  场景丰富: 图像/视频/推荐/搜索  开箱即用: 封装复杂性  大数据+大模型: Model Zoo  白盒化, 可扩展性强  跨场景+跨模态  积极对接开源系统+模型 SGD SQL Adam Blink
8. 标准化: Standard Libraries EasyRec: 推荐算法库
9. 标准化: Standard Libraries EasyVision: 图像视频算法库 Classification Segmentation OCR Image Generation Object Detection Multi-Label Retrieval Video Caption TextInput VideoInput RPNHead CrossEntropy Vit RCNNHead SmoothL1 Swin MaskHead DiceLoss Bert SeqHead Contrasive Resnet ImageInput
10. 标准化: Standard Libraries Graph-Learn: 分布式图算法库 功能完备:  GSL/负采样  主流图算法  异构图 (user/item/attribute)  动态图 性能优越:  分布式存储  分布式查询
11. 标准化: Standard Solutions CV / NLP解决方案: Data Label Model Serving EAS Continuous Optimization: Active learning
12. 示例: e-Know Your Customer 1 2 证件扫描 • 卡证OCR • 人脸检测 Mobile SDK 活体检测 • 3 Web App customer + API Mobile App 活体检测 人脸比对 On-prem System • 人脸比对 eKYC eKYC Server     多语言、国际化 多种证件版式 准确率领先同类产品 集成方便 eKYC SDK/API
13. 标准化: Standard Solutions 智能推荐解决方案: 推荐请求 PAI-ABTest A/B流量划分 PAI-Rec – 推荐引擎 排序 BE召回/Hologres x2i hot vec PAI-EAS – 模型推理 粗排 精排 model1 重排 在线流程 PAI-Studio–建模平台 推荐日志 MaxCompute 样本构造 Flink 离线特征 Datahub 实时特征 训练数据 召 回 模 型 EasyRec GraphLearn Alink 模型训练评估 离线流程 排 序 模 型 模 布 发 型 model2 …
14. 标准化: Standard Solutions 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 PAI-REC平台 自动化降级 负载均衡 Pipeline1 平台 支持 多路召回 灰度发布 曝光/状态过滤 超时控制 粗排/精排 PAI-REC 配置中心 Pipeline2 冷启动召 回 冷启动排 序 置 配 拉取 AB实验 实验工具 向量检索 向量引擎 BE/Hologres/Faiss/Milvus 策略[类目打散、流量控制、…] 读取数据 在线存储 Hologres/OTS 读取 me tric 实时采集后端日志 BE Redis 消息队列(datahub/kafka) 监控报警 Prometheus Grafana 日志SLS
15. 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案
16. 深度学习应用主要的挑战: • 多个环节 • 多种模型 深度模型是 非线性 的 黑盒 : • 参数很多 • 参数敏感 • 不同场景的数据上差异大 2.模型效果优 化困难 1.方案复杂 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复 杂 从FM到DeepFM rt 增 加了10倍怎么优化? 4.数据获取困 难 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ ✗ ✗ ✗ 标注速度慢 标注成本高 样本分布不均匀 隐私保护
17. 2.模型效果优化  学习率: 1e-3, 1e-4, 1e-5 ?  Embedding维度: 8, 16, 32 ? 问题: 黑盒 1. 参数太多 / 参数敏感 2. 候选空间大 3. 场景数据相关  Normalization: bn, gn, ln?  激活函数: relu, leaky_relu, swish ?  Backbone: resnet, hrnet, mobilenet, transformer? 解决方案: 超参搜索 效果提升 模型理解  多任务模型: share-bottom, mmoe, ple?  特征选择/生成: Age, sex, comment, click… 模型创新
18. 模型效果优化: 超参数搜索NNI
19. 模型效果优化: EasyRec 超参搜索 DeepFM: MIND: [ { [ { "type": "Categorical", "name": "f1.embed_dim", "candidates": ["16", "32", "48", "64", "80"] }, { "type": "Categorical", "name": ”f2.embed_dim", "candidates": ["16", "32", "48", "64", "80"] } ] "type": "Categorical", "name": ”capsule_config.routing_logits_scale", “candidates”:[10, 20, 30] }, { "type": "Categorical", "name": "capsule_config.squash_pow", "candidates": [0.1,0.2,0.3,0.4] } ] ExpId f1.dim f2.dim auc ExpId routing_logits_scale squash_pow hitrate 12 80 80 0.687 6 0.4 20 0.127 9 48 48 0.671 8 0.4 30 0.119 0 64 64 0.669 2 0.3 20 0.108 8 32 32 0.669 9 0.3 10 0.095 3 16 16 0.655 15 0.2 20 0.087
20. 模型效果优化: EasyRec AutoFeature 特征组合 + 特征选择  特征组合 • Count select count(1) group by col • GroupByThenMax/Min/Avg/Sum select max(col2) group by col1 • CrossCount[2] select count (1) group by col1,col2  特征选择 • Proxy task: GBDT特征选择 • Variational Dropout: 边训练边选择(NAS)
21. 深度学习应用主要的挑战: • 多个环节 • 多种模型 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 2.模型效果优 化困难 1.方案复杂 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复 杂 从FM到DeepFM rt 增加了10 倍怎么优化? 4.数据获取困 难 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ ✗ ✗ ✗ 标注速度慢 标注成本高 样本分布不均匀 隐私保护
22. 3. 工程优化  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征
23. 工程优化: 数据并行 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比
24. 工程优化: 模型并行(Whale) RapidFormer性能     M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型
25. 工程优化: Blade模型推理  FP16 / Int8  模型剪枝  Op融合(Fusion Stitch)  MILR: Blade Disc Dynamic Shape Compiler for Machine Learning Workloads
26. 工程优化: 千亿特征优化 训练: EmbeddingVariable [No Hash Conflict] 通信优化 [GRPC++] Adaptive Embedding 特征准入/淘汰 实时训练 混合精度 [增量更新] [bf16] 特征选择 [VariationalDropout] 模型蒸馏 Ring All-reduc同步训练 [HybridBackend/SOK] 推理: AVX/SSE优化 Graph优化 [User Graph去重] 内存Allocate优化 Op Fusion Overlap Execution Sequence Feature [hash + embedding] [FG OP化] [side info] ParallelStringOp [split/type conversion] Item Feature增量更新
27. 深度学习应用主要的挑战: • 多个环节 • 多种模型 1.方案复杂 2.模型效果优 化困难 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 4.数据获取困 难 ✗ ✗ ✗ ✗ 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复 杂 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? 标注速度慢 标注成本高 样本分布不均匀 隐私保护
28. 4. 数据获取困难 问题:   解决方案:  智能标注  自监督学习  多模态预训练  小样本学习 标注成本高 隐私保护
29. 解决方案: 智能标注系统iTags 智能预标注 + 人机协同 智能抠图 智能抠图 智能贴合
30. 解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征 图像搜索
31. 解决方案: 多模态预训练 Swin transformer based (Violet)
32. 解决方案: 多模态预训练 Video Frames VIT Image feature Title feature Title Bert OCR OCR feature Vit based Cls Token Transformer decoder Transformer decoder Transformer decoder MHSA Fusion VTM Transformer decoder Transformer decoder 下游任务:  视频分类  视频打标签  推荐模型特征 MVM MTM
33. 解决方案: 小样本学习 小样本结构化模型
34. PAI平台(Platform of Artificial Intelligence) AI Service (SaaS) AI SaaS服务(OCR、语音识别、推荐系统、金融风控、疾病预测等) 智能标注 可视化建模(Designer) • 图像、视频、文本、 语音标注 ML Service (PaaS ) • 多场景模板:物体检 测、语音识别 • 数据集管理 • JupyterLab、WebIDE • CLI • 数十个场景化模版 • 多框架兼容 • PAIFlow • 所见即所得 • 可视化+tensorboard • OpenAPI 分布式训练(DLC) • 主动学习 • 自定义镜像 • 智能标注 itags • 全托管+半托管 • • 一键部署 超大资源池 Infrastructure 开发者工具 • 200+组件 在线服务(EAS) • 一键部署、弹性扩缩 在线预测服务(EAS) • 多框架、多语言 • 分布式训练优化 ML Frameworks 交互式建模(DSW) • 多模型 • 蓝绿部署 AI能力 体验中心 • 推理优化Blade • • 多维度监控+报警 弹性扩缩 • 推理优化 机器学习框架(PAI-TensorFlow/PAI-PyTorch/Caffe /Alink/…) 计算引擎(MaxCompute / EMR / Flink) 生态市场 阿里云容器服务(ACK) 基础硬件(CPU/GPU/FPGA/NPU) 开源
35. PAI平台(Platform of Artificial Intelligence) Deep Learning Container
36. PAI平台的优势 外循 环 内循 环 提 供 业务场景复杂 促 数据量大而全 促 支撑 对接 进 支撑 先进的模型结构 开源生态 系统 支撑 进 模型 计算力强、性价比高 贡献 生态系统 硬件
37. 参考资料 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 机器学习PAI: https://help.aliyun.com/product/30347.html 阿里灵杰:https://www.zhihu.com/org/a-li-ling-jie EasyRec: https://github.com/alibaba/EasyRec 推荐解决方案: https://help.aliyun.com/document_detail/161927.html EasyCV:https://github.com/alibaba/EasyCV EasyNLP: https://github.com/alibaba/EasyNLP AliGraph: https://github.com/alibaba/graph-learn DSW: https://help.aliyun.com/document_detail/194831.html DLC: https://help.aliyun.com/document_detail/165124.html EAS: https://help.aliyun.com/document_detail/110980.html Blade: https://help.aliyun.com/document_detail/205128.html PaiFlow: https://help.aliyun.com/document_detail/438027.html Alink: https://github.com/alibaba/Alink Whale: https://help.aliyun.com/document_detail/428527.html RapidFormer: https://help.aliyun.com/document_detail/406377.html HybridBackend: https://github.com/alibaba/HybridBackend DeepRec: https://github.com/alibaba/DeepRec iTag: https://help.aliyun.com/document_detail/311182.html
38. 谢谢!
39.
40.

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.139.0. UTC+08:00, 2025-01-08 02:49
浙ICP备14020137号-1 $访客地图$