阿里云上深度学习建模实践

如果无法正常显示，请先停止浏览器的去广告插件。

相关话题： #阿里巴巴

1. 阿里云深度学习实践程孟力花名: 杨熙阿里巴巴-计算平台-PAI

3. 深度学习应用场景更多场景      沙漠湖泊旅行个性化推荐视频理解智能对话系统图像检索优势: 效果显著超越传统模型(线性层模型 / 树模型 / SVM模型 / … ) OCR识别人脸核身智能风控自动驾驶语音助手 • • •

4. 深度学习应用主要的挑战： • 多个环节 • 多种模型 2.模型效果优化困难 1.方案复杂深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复杂从FM到DeepFM rt 增加了10倍怎么优化？ 4.数据获取困难手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ ✗ ✗ ✗ 标注速度慢标注成本高样本分布不均匀隐私保护

5. 深度学习应用主要的挑战： • 多个环节 • 多种模型 2.模型效果优化困难 1.方案复杂深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复杂从FM到DeepFM rt 增加了10倍怎么优化？ 4.数据获取困难手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ ✗ ✗ ✗ 标注速度慢标注成本高样本分布不均匀隐私保护

6. 1.方案复杂流程长、环节多: 问题:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸识别 … 模型构建: Data 要求:  准确: 低噪声  全面: 同分布 Model Compute Platform 模型选型: 训练推理:  容量大  计算量小  高qps, 低rt  支持超大模型  性价比解决方案: 标准化  标准化模型库  标准化解决方案

7. 标准化: Standard Libraries and Solutions Solutions 图像 Librarys EasyVision 语音优势: MPI 视频理解 MLP CNN Parameter Server 推荐搜索 EasyRec EasyTransfer Components TreeModel Framework NLP RNN Tensorflow GraphLearn FTRL GNN PyTorch 广告 MapReduce  场景丰富: 图像/视频/推荐/搜索  开箱即用: 封装复杂性  大数据+大模型: Model Zoo  白盒化, 可扩展性强  跨场景+跨模态  积极对接开源系统+模型 SGD SQL Adam Blink

8. 标准化: Standard Libraries EasyRec: 推荐算法库

9. 标准化: Standard Libraries EasyVision: 图像视频算法库 Classification Segmentation OCR Image Generation Object Detection Multi-Label Retrieval Video Caption TextInput VideoInput RPNHead CrossEntropy Vit RCNNHead SmoothL1 Swin MaskHead DiceLoss Bert SeqHead Contrasive Resnet ImageInput

10. 标准化: Standard Libraries Graph-Learn: 分布式图算法库功能完备:  GSL/负采样  主流图算法  异构图 (user/item/attribute)  动态图性能优越:  分布式存储  分布式查询

11. 标准化: Standard Solutions CV / NLP解决方案: Data Label Model Serving EAS Continuous Optimization: Active learning

12. 示例: e-Know Your Customer 1 2 证件扫描 • 卡证OCR • 人脸检测 Mobile SDK 活体检测 • 3 Web App customer + API Mobile App 活体检测人脸比对 On-prem System • 人脸比对 eKYC eKYC Server     多语言、国际化多种证件版式准确率领先同类产品集成方便 eKYC SDK/API

13. 标准化: Standard Solutions 智能推荐解决方案: 推荐请求 PAI-ABTest A/B流量划分 PAI-Rec – 推荐引擎排序 BE召回/Hologres x2i hot vec PAI-EAS – 模型推理粗排精排 model1 重排在线流程 PAI-Studio–建模平台推荐日志 MaxCompute 样本构造 Flink 离线特征 Datahub 实时特征训练数据召回模型 EasyRec GraphLearn Alink 模型训练评估离线流程排序模型模布发型 model2 …

14. 标准化: Standard Solutions 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 PAI-REC平台自动化降级负载均衡 Pipeline1 平台支持多路召回灰度发布曝光/状态过滤超时控制粗排/精排 PAI-REC 配置中心 Pipeline2 冷启动召回冷启动排序置配拉取 AB实验实验工具向量检索向量引擎 BE/Hologres/Faiss/Milvus 策略[类目打散、流量控制、…] 读取数据在线存储 Hologres/OTS 读取 me tric 实时采集后端日志 BE Redis 消息队列(datahub/kafka) 监控报警 Prometheus Grafana 日志SLS

15. 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案

16. 深度学习应用主要的挑战： • 多个环节 • 多种模型深度模型是非线性的黑盒 : • 参数很多 • 参数敏感 • 不同场景的数据上差异大 2.模型效果优化困难 1.方案复杂挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复杂从FM到DeepFM rt 增加了10倍怎么优化？ 4.数据获取困难手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ ✗ ✗ ✗ 标注速度慢标注成本高样本分布不均匀隐私保护

17. 2.模型效果优化  学习率: 1e-3, 1e-4, 1e-5 ?  Embedding维度: 8, 16, 32 ? 问题: 黑盒 1. 参数太多 / 参数敏感 2. 候选空间大 3. 场景数据相关  Normalization: bn, gn, ln?  激活函数: relu, leaky_relu, swish ?  Backbone: resnet, hrnet, mobilenet, transformer? 解决方案: 超参搜索效果提升模型理解  多任务模型: share-bottom, mmoe, ple?  特征选择/生成: Age, sex, comment, click… 模型创新

18. 模型效果优化: 超参数搜索NNI

19. 模型效果优化: EasyRec 超参搜索 DeepFM: MIND: [ { [ { "type": "Categorical", "name": "f1.embed_dim", "candidates": ["16", "32", "48", "64", "80"] }, { "type": "Categorical", "name": ”f2.embed_dim", "candidates": ["16", "32", "48", "64", "80"] } ] "type": "Categorical", "name": ”capsule_config.routing_logits_scale", “candidates”:[10, 20, 30] }, { "type": "Categorical", "name": "capsule_config.squash_pow", "candidates": [0.1,0.2,0.3,0.4] } ] ExpId f1.dim f2.dim auc ExpId routing_logits_scale squash_pow hitrate 12 80 80 0.687 6 0.4 20 0.127 9 48 48 0.671 8 0.4 30 0.119 0 64 64 0.669 2 0.3 20 0.108 8 32 32 0.669 9 0.3 10 0.095 3 16 16 0.655 15 0.2 20 0.087

20. 模型效果优化: EasyRec AutoFeature 特征组合 + 特征选择  特征组合 • Count select count(1) group by col • GroupByThenMax/Min/Avg/Sum select max(col2) group by col1 • CrossCount[2] select count (1) group by col1,col2  特征选择 • Proxy task: GBDT特征选择 • Variational Dropout: 边训练边选择(NAS)

21. 深度学习应用主要的挑战： • 多个环节 • 多种模型深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 2.模型效果优化困难 1.方案复杂挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复杂从FM到DeepFM rt 增加了10 倍怎么优化？ 4.数据获取困难手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ ✗ ✗ ✗ 标注速度慢标注成本高样本分布不均匀隐私保护

22. 3. 工程优化  训练优化:  数据并行  模型并行  推理优化: Blade  推荐模型优化: 千亿特征

23. 工程优化: 数据并行 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比

24. 工程优化: 模型并行(Whale) RapidFormer性能     M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型

25. 工程优化: Blade模型推理  FP16 / Int8  模型剪枝  Op融合(Fusion Stitch)  MILR: Blade Disc Dynamic Shape Compiler for Machine Learning Workloads

26. 工程优化: 千亿特征优化训练: EmbeddingVariable [No Hash Conflict] 通信优化 [GRPC++] Adaptive Embedding 特征准入/淘汰实时训练混合精度 [增量更新] [bf16] 特征选择 [VariationalDropout] 模型蒸馏 Ring All-reduc同步训练 [HybridBackend/SOK] 推理: AVX/SSE优化 Graph优化 [User Graph去重] 内存Allocate优化 Op Fusion Overlap Execution Sequence Feature [hash + embedding] [FG OP化] [side info] ParallelStringOp [split/type conversion] Item Feature增量更新

27. 深度学习应用主要的挑战： • 多个环节 • 多种模型 1.方案复杂 2.模型效果优化困难深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 4.数据获取困难 ✗ ✗ ✗ ✗ 挑战 ✗ 海量参数 ✗ 海量数据 3.工程优化复杂从FM到DeepFM rt 增加了10倍怎么优化？手里面只有5张图片，怎么搞出来一个效果还不错的模型? 标注速度慢标注成本高样本分布不均匀隐私保护

28. 4. 数据获取困难问题:   解决方案:  智能标注  自监督学习  多模态预训练  小样本学习标注成本高隐私保护

29. 解决方案: 智能标注系统iTags 智能预标注 + 人机协同智能抠图智能抠图智能贴合

30. 解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征图像搜索

31. 解决方案: 多模态预训练 Swin transformer based (Violet)

32. 解决方案: 多模态预训练 Video Frames VIT Image feature Title feature Title Bert OCR OCR feature Vit based Cls Token Transformer decoder Transformer decoder Transformer decoder MHSA Fusion VTM Transformer decoder Transformer decoder 下游任务:  视频分类  视频打标签  推荐模型特征 MVM MTM

33. 解决方案: 小样本学习小样本结构化模型

34. PAI平台（Platform of Artificial Intelligence） AI Service (SaaS) AI SaaS服务（OCR、语音识别、推荐系统、金融风控、疾病预测等）智能标注可视化建模(Designer) • 图像、视频、文本、语音标注 ML Service (PaaS ) • 多场景模板：物体检测、语音识别 • 数据集管理 • JupyterLab、WebIDE • CLI • 数十个场景化模版 • 多框架兼容 • PAIFlow • 所见即所得 • 可视化+tensorboard • OpenAPI 分布式训练(DLC) • 主动学习 • 自定义镜像 • 智能标注 itags • 全托管+半托管 • • 一键部署超大资源池 Infrastructure 开发者工具 • 200+组件在线服务(EAS) • 一键部署、弹性扩缩在线预测服务（EAS） • 多框架、多语言 • 分布式训练优化 ML Frameworks 交互式建模（DSW） • 多模型 • 蓝绿部署 AI能力体验中心 • 推理优化Blade • • 多维度监控+报警弹性扩缩 • 推理优化机器学习框架(PAI-TensorFlow/PAI-PyTorch/Caffe /Alink/…) 计算引擎(MaxCompute / EMR / Flink) 生态市场阿里云容器服务(ACK) 基础硬件（CPU/GPU/FPGA/NPU）开源

35. PAI平台（Platform of Artificial Intelligence） Deep Learning Container

36. PAI平台的优势外循环内循环提供业务场景复杂促数据量大而全促支撑对接进支撑先进的模型结构开源生态系统支撑进模型计算力强、性价比高贡献生态系统硬件

37. 参考资料 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 机器学习PAI: https://help.aliyun.com/product/30347.html 阿里灵杰:https://www.zhihu.com/org/a-li-ling-jie EasyRec: https://github.com/alibaba/EasyRec 推荐解决方案: https://help.aliyun.com/document_detail/161927.html EasyCV:https://github.com/alibaba/EasyCV EasyNLP: https://github.com/alibaba/EasyNLP AliGraph: https://github.com/alibaba/graph-learn DSW: https://help.aliyun.com/document_detail/194831.html DLC: https://help.aliyun.com/document_detail/165124.html EAS: https://help.aliyun.com/document_detail/110980.html Blade: https://help.aliyun.com/document_detail/205128.html PaiFlow: https://help.aliyun.com/document_detail/438027.html Alink: https://github.com/alibaba/Alink Whale: https://help.aliyun.com/document_detail/428527.html RapidFormer: https://help.aliyun.com/document_detail/406377.html HybridBackend: https://github.com/alibaba/HybridBackend DeepRec: https://github.com/alibaba/DeepRec iTag: https://help.aliyun.com/document_detail/311182.html

38. 谢谢！

39.

40.