云边端一体化的异构AI计算
如果无法正常显示,请先停止浏览器的去广告插件。
1.
2. 云边端一体化的异构AI计算
韩天 王楠
阿里云智能-基础设施事业部 高级技术专家 阿里云智能-基础设施事业部 高级技术专家
3. 目录
1
背景:边缘计算面临的挑战
2
云边端一体化的异构AI计算平台
Ø 异构AI硬件平台
Ø 异构AI编译:HALO
Ø 异构硬件解耦规范(ODLA)
Ø ODLA.CV/Pipeline自动生成
3
未来新技术探索
4. 背景:边缘计算经历快速增长
中国人工智能市场每年40%以上的增长
边缘计算占比越来越高,边缘计算需求越来越大
75% 的数据在 50% 的数据
边缘产生 在边缘处理
5.5X
33
ZB
2018
数据爆炸
180 ZB
2025
Source: IDC中国人工智能软件及应用市场半年度研究报告,2019H1
5. 边缘场景挑战1:设备独立部署,运维管控难
IDC数据中心
vs MEC边缘机房
1200mm机柜 600mm~800mm机柜
25℃环境温度 35+℃环境温度
8~16 KN/m2承重 2~5 KN/m2承重
供电、运维、安全…… /
街边柜
70℃环境温度
密闭无风
部署集中 部署分散
环境标准 环境恶劣
设备单一 设备复杂
6. 边缘场景挑战2:芯片多样,生态隔离
软件栈
Intel
oneAPI
AMD
ROCm
NVIDIA
CUDA-
X
高通
AI SDK
NeuroPi
lot
NXP ® eI
Q ™
Core
ML
Vitis AI
CANN
Cambric
on
NeuWar
e
RKNN-
Toolkit
芯片
指令集
X86
CISC
MIPS
ARM
PPC
RISC
边缘AI芯片发展繁荣,迭代速度快,但各家芯片厂商开发生态隔离,应用迁移难,开发周期长。
RISC-V
HGAI
7. 边缘场景挑战3:隐私安全难以可靠保障
Edge
Cloud
挑战:
•
边缘可信硬件算力低下,难以在性能和隐私保护级别上做到很好的平衡,优化方案不通用
ü 隐私数据裸奔:IOT 边缘应用存在大量人脸、车牌等敏感数据场景,无有效保护
ü 防护面低:边缘方案只能静态防护,对模型进行静态加密,runtime级别的保护能力缺失
ü 合规风险高:存在潜在的敏感数据及模型IP泄漏高风险问题,监管合规风险高
8. 边缘场景挑战4:应用开发部署敏捷度不足
❌
❌
云端
DevOps
云端
DevOps
移动终端
桌面终端
边缘
挑战:
• 体验欠佳:云计算可以实现云上开发云上部署,边缘计算的硬件环境体验不一致
• 生态匮乏:缺乏云端丰富的服务应用协同,边缘容易形成功能孤岛,不能借力成熟的云生态
• 弹性缺失:缺乏云端秒级弹性服务构建能力,难以跟上现代业务开发快速迭代步伐
9. 1
背景:边缘计算面临的挑战
2
云边端一体化的异构AI计算平台
Ø 异构AI硬件平台
Ø 异构AI编译:HALO
Ø 异构硬件解耦规范(ODLA)
Ø ODLA.CV/Pipeline自动生成
3
未来新技术探索
10. 阿里云智能边缘计算产品全家福
11. 阿里云智能边缘计算 - 云边一体架构
•
•
•
•
•
•
•
•
12. 智能边缘运维平台 – 海量设备,轻松管控
中心管控运维平台
自动纳
管
指标监
控
运维服
务
日志管
理
配置管
理
软件升
级
定时巡
检
可视化
轻量化云原生底座
边缘节点
边缘节点
边缘
设备
端设备
边缘
设备
… 端设备
… 边缘
设备
… 端设备
边缘
设备
…
端设备
ü 易交付 :设备即插即用,免安装,免注册
ü 易运维 :自动升级,免人工干预
ü 智能预警 :海量边缘管理,云端智能预警
13. 震旦隐私计算 - 做性能最好的隐私计算
业务
端侧应用 xxx
云端应用 xxx
边缘应用 xxx
Sinian Trust
可信计算方向
震旦隐
私计算
可信计算框架
联邦学习方向
密码学及其他方向
多方安全计算框架
隐私脱敏计算框架
模型安全切分 大安全联邦学习 隐私保护模型训练
异构调度/卸载 基于MPC的区块链 数据隐私保护推理
HALO(异构加速)
SinianSlim(模型优化)
autosinian(自动调优)
同态加密框架
异构设备接口 ODLA.nn,ODLA.trust
硬件及
芯片
安全计算(SGX-
Occlum)
ARM Trustone (Link-
TEE)
GPU
其他异构ASIC
ü 高安全: 隐私数据全流程防护,模型脱敏
ü 低开销: 性能相比原始网络,脱敏算子化加速性能提升20%
ü 通用化: 算子结构通用化,与加速硬件、算法模型解耦,不需加密现有模型算法
14. 云边端一体化的AI计算平台
Ø 云边端、AI全场景:
• 云边端统一协同管控实现了云服务能力下沉,
触达端到端的云服务,边缘和云会深度融合
• 云边端一体化、全场景AI基础设施方案,充
分满足智能时代多变、碎片化、差异化的AI
应用场景。
算法开发平台
云
端
边缘AI需求碎片化严重,定制、异构ASIC
• 支持性价比高的芯片,降低算力成本
开发者SDK 监控平台 应用编排 设备管理
数据管理 算法评测 小二后台 开箱激活 安全
云控制台 管控 云边通道
远程通道 云原生管控 设备连接
震旦Halo 编译【CV、NN】
算法下发
Ø 开放生态
• 支持业界主流框架和主流硬件,开放统一的
标准,平滑迁移
• 共建生态:灵活的合作方式与业界厂商共建
开放产业生态
物联网服务
算法应用
Ø 普惠、异构算力
•
云边一体管控
视频基础服务
连接服务
网关
现
场
计
算
本地
设备
连接
安全、
达摩院算法
算法流水线
可信存储
ODLA Runtime
云原生托管底座
硬件生态
云端
设备
连接
15. 异构感知全编译优化
异构AI编译:HALO
HALO:Heterogeneity Aware Lowering & Optimization
C++ API
(IR Builder)
HALO IR
中间表示
Parser
Model
files
Transformation
Passes HALO IR
中间表示
Pass
Manager CodeGen
Passes
.o
Driver
• 静态全编译:减少计算硬件开销,降低AI模型代码到百KB级别
• 可裁剪配置:云-边-端一体化平台,可配置自动裁剪
• 高度软硬协同:异构感知的计算加速、计算切分和流水并行
• 通用模型压缩:高效模型压缩、及快速稳定的全模型自动调优
120.00
.c
.b
c
ResNet50-V2 Inference on V100 GPU (32GB)
104.34
100.00
80.00
56.13
60.00
39.64
33.03
40.00
20.00
2.94 7.38
9.86 13.41
18.01 21.03
0.00
1
8
HALO (ODLA + TensorRT)
16
TensorFlow 2.1.0
32
64
Batch Size
16. 异构计算硬件统一接口规范:ODLA
(Open Deep Learning API)
o 开放、统一、抽象、解耦
o API 轻、薄、overhead 最小
o 代码重用,提升效率、缩短开发周期
(数倍的节省)
o 分层解耦,厂家和用户独立开发
(与厂家耦合度小)
1. 异构硬件解耦规范(ODLA),屏蔽架构差异,同时充分挖掘异构计算潜力
2. 结合 HALO 编译技术和算力封装,提供卓越性价比的AI算力服务
17. GitHub 开源 - HALO/ODLA
https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization
18. ODLA CV/Pipeline自动生成
ODLA从AI计算扩展到视频分析完整
pipeline,屏蔽编解码、图像处理的
硬件细节:
• Image Proc
• customed decode: extract motion
vector
• Video Decoder/Encoder
• Jpeg Decoder/Encoder
• Tracking
• 音频处理、mux/demux
视频pipeline自动生成
•
Halo将pipeline文件(prototxt)自动编
译成c++代码
• 支持control flow(if、loop)
• 多线程和异步支持
19. ODLA.CV和ODLA.PL(Pipeline)架构设计
应用
视频框架
数据中心场景
边缘场景
场景
人脸识别
业务方视频框架
淘宝直播
入侵检测
客流分析
MOVIE
VFP
其他业务框架
Python
pipeline 接口
Python/C++ ODLA CV接口
云视频
Protobuf接口
IDE接口
ODLA Pipeline自动生成
视频编解码 图像处理 定制加速 Jpeg编解码
Tracking 定制解码 唤醒式优化 音频处理
Anole SDK
硬件
DALI
高通SDK
FFMpeg
NVCodec
其他 SDK
• 对外接口
• GUI可视化界面,可拖拽
• High-level 描述语言 (Python/
C++)
• 可移植的protobuf
• 可配置,轻量级,满足业务对框架
大小的要求
• 算法加速包:
•
•
无解码视频加速
唤醒式视频推理等
• 无缝连接任意异构硬件
CV Runtime
OpenCV
• ODLA.CV(单独)
• ODLA.Pipeline + ODLA.CV
• 核心Module
CV API(抽象层)
ODLA.CV
• 灵活定制:
Memory管理 资源管理
优化
Task异步管理 动态优化
Anole / DP1000 / x86 CPU/ GPU / 寒武纪 / 高通AIC
• 性能优化:
•
内存管理,资源管理
• 基于硬件vendor高效库并选择最佳
20. 1
背景:边缘计算面临的挑战
2
云边端一体化的异构AI计算平台
Ø 异构AI硬件平台
Ø 异构AI编译:HALO
Ø 异构硬件解耦规范(ODLA)
Ø ODLA.CV/Pipeline自动生成
3
未来新技术探索
21. 震旦P帧免解码视频AI加速
Ø震旦P帧免解码视频分析技术:
• 提升 2X 推理性能 (无损精度)
• detection + tracking 协同优化
• 减轻解码负担、降低功耗
Input
I帧
Video
Stream
非
解
码
分
析
模
块
Feature Net
Motion Info
P帧
Residual
Motion Info
P帧
Residual
Task Net
Feature
Propagation Task Net
Feature
Propagation Task Net
22. 震旦P帧免解码加速案例
23. 震旦唤醒式入侵检测优化
进行目标
检测
图片相似性检测,避免不必要检测
输入
视频
第n个i帧
与第n-1个i帧做
相似度比对
如果 睡眠
等于 相似度
给定 高于
的阈 或
值
算法后
处理
进行目标
检测
节省接近 70% 的算力
提升3~4倍性能
24.