云边端一体化的异构AI计算

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1.
2. 云边端一体化的异构AI计算 韩天 王楠 阿里云智能-基础设施事业部 高级技术专家 阿里云智能-基础设施事业部 高级技术专家
3. 目录 1 背景:边缘计算面临的挑战 2 云边端一体化的异构AI计算平台 Ø 异构AI硬件平台 Ø 异构AI编译:HALO Ø 异构硬件解耦规范(ODLA) Ø ODLA.CV/Pipeline自动生成 3 未来新技术探索
4. 背景:边缘计算经历快速增长 中国人工智能市场每年40%以上的增长 边缘计算占比越来越高,边缘计算需求越来越大 75% 的数据在 50% 的数据 边缘产生 在边缘处理 5.5X 33 ZB 2018 数据爆炸 180 ZB 2025 Source: IDC中国人工智能软件及应用市场半年度研究报告,2019H1
5. 边缘场景挑战1:设备独立部署,运维管控难 IDC数据中心 vs MEC边缘机房 1200mm机柜 600mm~800mm机柜 25℃环境温度 35+℃环境温度 8~16 KN/m2承重 2~5 KN/m2承重 供电、运维、安全…… / 街边柜 70℃环境温度 密闭无风 部署集中 部署分散 环境标准 环境恶劣 设备单一 设备复杂
6. 边缘场景挑战2:芯片多样,生态隔离 软件栈 Intel oneAPI AMD ROCm NVIDIA CUDA- X 高通 AI SDK NeuroPi lot NXP ® eI Q ™ Core ML Vitis AI CANN Cambric on NeuWar e RKNN- Toolkit 芯片 指令集 X86 CISC MIPS ARM PPC RISC 边缘AI芯片发展繁荣,迭代速度快,但各家芯片厂商开发生态隔离,应用迁移难,开发周期长。 RISC-V HGAI
7. 边缘场景挑战3:隐私安全难以可靠保障 Edge Cloud 挑战: • 边缘可信硬件算力低下,难以在性能和隐私保护级别上做到很好的平衡,优化方案不通用 ü 隐私数据裸奔:IOT 边缘应用存在大量人脸、车牌等敏感数据场景,无有效保护 ü 防护面低:边缘方案只能静态防护,对模型进行静态加密,runtime级别的保护能力缺失 ü 合规风险高:存在潜在的敏感数据及模型IP泄漏高风险问题,监管合规风险高
8. 边缘场景挑战4:应用开发部署敏捷度不足 ❌ ❌ 云端 DevOps 云端 DevOps 移动终端 桌面终端 边缘 挑战: • 体验欠佳:云计算可以实现云上开发云上部署,边缘计算的硬件环境体验不一致 • 生态匮乏:缺乏云端丰富的服务应用协同,边缘容易形成功能孤岛,不能借力成熟的云生态 • 弹性缺失:缺乏云端秒级弹性服务构建能力,难以跟上现代业务开发快速迭代步伐
9. 1 背景:边缘计算面临的挑战 2 云边端一体化的异构AI计算平台 Ø 异构AI硬件平台 Ø 异构AI编译:HALO Ø 异构硬件解耦规范(ODLA) Ø ODLA.CV/Pipeline自动生成 3 未来新技术探索
10. 阿里云智能边缘计算产品全家福
11. 阿里云智能边缘计算 - 云边一体架构 • • • • • • • •
12. 智能边缘运维平台 – 海量设备,轻松管控 中心管控运维平台 自动纳 管 指标监 控 运维服 务 日志管 理 配置管 理 软件升 级 定时巡 检 可视化 轻量化云原生底座 边缘节点 边缘节点 边缘 设备 端设备 边缘 设备 … 端设备 … 边缘 设备 … 端设备 边缘 设备 … 端设备 ü 易交付 :设备即插即用,免安装,免注册 ü 易运维 :自动升级,免人工干预 ü 智能预警 :海量边缘管理,云端智能预警
13. 震旦隐私计算 - 做性能最好的隐私计算 业务 端侧应用 xxx 云端应用 xxx 边缘应用 xxx Sinian Trust 可信计算方向 震旦隐 私计算 可信计算框架 联邦学习方向 密码学及其他方向 多方安全计算框架 隐私脱敏计算框架 模型安全切分 大安全联邦学习 隐私保护模型训练 异构调度/卸载 基于MPC的区块链 数据隐私保护推理 HALO(异构加速) SinianSlim(模型优化) autosinian(自动调优) 同态加密框架 异构设备接口 ODLA.nn,ODLA.trust 硬件及 芯片 安全计算(SGX- Occlum) ARM Trustone (Link- TEE) GPU 其他异构ASIC ü 高安全: 隐私数据全流程防护,模型脱敏 ü 低开销: 性能相比原始网络,脱敏算子化加速性能提升20% ü 通用化: 算子结构通用化,与加速硬件、算法模型解耦,不需加密现有模型算法
14. 云边端一体化的AI计算平台 Ø 云边端、AI全场景: • 云边端统一协同管控实现了云服务能力下沉, 触达端到端的云服务,边缘和云会深度融合 • 云边端一体化、全场景AI基础设施方案,充 分满足智能时代多变、碎片化、差异化的AI 应用场景。 算法开发平台 云 端 边缘AI需求碎片化严重,定制、异构ASIC • 支持性价比高的芯片,降低算力成本 开发者SDK 监控平台 应用编排 设备管理 数据管理 算法评测 小二后台 开箱激活 安全 云控制台 管控 云边通道 远程通道 云原生管控 设备连接 震旦Halo 编译【CV、NN】 算法下发 Ø 开放生态 • 支持业界主流框架和主流硬件,开放统一的 标准,平滑迁移 • 共建生态:灵活的合作方式与业界厂商共建 开放产业生态 物联网服务 算法应用 Ø 普惠、异构算力 • 云边一体管控 视频基础服务 连接服务 网关 现 场 计 算 本地 设备 连接 安全、 达摩院算法 算法流水线 可信存储 ODLA Runtime 云原生托管底座 硬件生态 云端 设备 连接
15. 异构感知全编译优化 异构AI编译:HALO HALO:Heterogeneity Aware Lowering & Optimization C++ API (IR Builder) HALO IR 中间表示 Parser Model files Transformation Passes HALO IR 中间表示 Pass Manager CodeGen Passes .o Driver • 静态全编译:减少计算硬件开销,降低AI模型代码到百KB级别 • 可裁剪配置:云-边-端一体化平台,可配置自动裁剪 • 高度软硬协同:异构感知的计算加速、计算切分和流水并行 • 通用模型压缩:高效模型压缩、及快速稳定的全模型自动调优 120.00 .c .b c ResNet50-V2 Inference on V100 GPU (32GB) 104.34 100.00 80.00 56.13 60.00 39.64 33.03 40.00 20.00 2.94 7.38 9.86 13.41 18.01 21.03 0.00 1 8 HALO (ODLA + TensorRT) 16 TensorFlow 2.1.0 32 64 Batch Size
16. 异构计算硬件统一接口规范:ODLA (Open Deep Learning API) o 开放、统一、抽象、解耦 o API 轻、薄、overhead 最小 o 代码重用,提升效率、缩短开发周期 (数倍的节省) o 分层解耦,厂家和用户独立开发 (与厂家耦合度小) 1. 异构硬件解耦规范(ODLA),屏蔽架构差异,同时充分挖掘异构计算潜力 2. 结合 HALO 编译技术和算力封装,提供卓越性价比的AI算力服务
17. GitHub 开源 - HALO/ODLA https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization
18. ODLA CV/Pipeline自动生成 ODLA从AI计算扩展到视频分析完整 pipeline,屏蔽编解码、图像处理的 硬件细节: • Image Proc • customed decode: extract motion vector • Video Decoder/Encoder • Jpeg Decoder/Encoder • Tracking • 音频处理、mux/demux 视频pipeline自动生成 • Halo将pipeline文件(prototxt)自动编 译成c++代码 • 支持control flow(if、loop) • 多线程和异步支持
19. ODLA.CV和ODLA.PL(Pipeline)架构设计 应用 视频框架 数据中心场景 边缘场景 场景 人脸识别 业务方视频框架 淘宝直播 入侵检测 客流分析 MOVIE VFP 其他业务框架 Python pipeline 接口 Python/C++ ODLA CV接口 云视频 Protobuf接口 IDE接口 ODLA Pipeline自动生成 视频编解码 图像处理 定制加速 Jpeg编解码 Tracking 定制解码 唤醒式优化 音频处理 Anole SDK 硬件 DALI 高通SDK FFMpeg NVCodec 其他 SDK • 对外接口 • GUI可视化界面,可拖拽 • High-level 描述语言 (Python/ C++) • 可移植的protobuf • 可配置,轻量级,满足业务对框架 大小的要求 • 算法加速包: • • 无解码视频加速 唤醒式视频推理等 • 无缝连接任意异构硬件 CV Runtime OpenCV • ODLA.CV(单独) • ODLA.Pipeline + ODLA.CV • 核心Module CV API(抽象层) ODLA.CV • 灵活定制: Memory管理 资源管理 优化 Task异步管理 动态优化 Anole / DP1000 / x86 CPU/ GPU / 寒武纪 / 高通AIC • 性能优化: • 内存管理,资源管理 • 基于硬件vendor高效库并选择最佳
20. 1 背景:边缘计算面临的挑战 2 云边端一体化的异构AI计算平台 Ø 异构AI硬件平台 Ø 异构AI编译:HALO Ø 异构硬件解耦规范(ODLA) Ø ODLA.CV/Pipeline自动生成 3 未来新技术探索
21. 震旦P帧免解码视频AI加速 Ø震旦P帧免解码视频分析技术: • 提升 2X 推理性能 (无损精度) • detection + tracking 协同优化 • 减轻解码负担、降低功耗 Input I帧 Video Stream 非 解 码 分 析 模 块 Feature Net Motion Info P帧 Residual Motion Info P帧 Residual Task Net Feature Propagation Task Net Feature Propagation Task Net
22. 震旦P帧免解码加速案例
23. 震旦唤醒式入侵检测优化 进行目标 检测 图片相似性检测,避免不必要检测 输入 视频 第n个i帧 与第n-1个i帧做 相似度比对 如果 睡眠 等于 相似度 给定 高于 的阈 或 值 算法后 处理 进行目标 检测 节省接近 70% 的算力 提升3~4倍性能
24.

Home - Wiki
Copyright © 2011-2024 iteam. Current version is 2.137.1. UTC+08:00, 2024-11-13 06:40
浙ICP备14020137号-1 $Map of visitor$