具身智能中的 VLA 技术及其应用

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 具身智能中的 VLA 技术及其应用 隋伟
2. 源自智能驾驶,通往通用智能 计算架构 赋能智能驾驶 让人类生活更安全、更美好 开发平台 智能算法 加速机器智能进 化 促进人机和谐伴 生 产业生态 共通的三大计算 任 务 环境感知 人机交互 决策控制
3. 为机器人创造更简单的全链路开发基础设施 机器人云端开发环境 云 机器人算法中心 NodeHub 仿真环境 数据生成 训练降本 VSLAM 3D Occupancy 双目深度检测 简易部署 copilot 可视化验证 VLA/VLN Locomotion RL BEV 机器人操作系统 TogetheROS.Bot ROS2 Model Zoo Linux Ubuntu Linaro 端 旭日智能计算芯片 RDK机器人开发者套件 S100/S100P RDK S100/S100P 旭日 3 旭日 5 RDK X3 RDK X5
4. 目录 01 具身智能中VLA 的现状和挑战 02 VLA 的主流架构 03 VLA 的数据方案 04 VLA 模型的量化部署 05 前景和展望 06
5.
6. 01 VLA 的现状和挑战
7. 具身智能:堪比“计算机诞生”级的颠覆式创新 2022 2015 2007 1980 个人电脑 智能手机 智能驾驶 具身智能
8. 具身智能:堪比“计算机诞生”级的颠覆式创新 当前阶段 G1 基础 模型 基础自动化 G2 通用原子技能 功能成熟度 Locomotion:盲眼运动较为成熟, 平衡性较好,环境实时反馈需要提升 数据 驱动 本体成熟 海量数据 G3 端到端操作 大模型 端到端操作 技能 底层模型 VLA: 从模块化往端到端发展, 模仿学习往 强化学习发展 顶层任务拆解 G4 长程 数据 G5 AGI 数据采集 硬件本体 遥操: 通过动捕设备、或者同构机械 臂进行数据采集 性能成本: 快速进步、成本降低、灵活 性通用性持续提升 任务运动规划 Manipulation:特定场景特定任务 训练效果好,泛化性较差 执行器械 优点:模块化可解释性强、数据依赖少 缺点:依赖规则,可扩展性差、无法处理 高自由度本体 优点:数据真实可用,有效性高 缺点:采集成本高、效率低 仿真: 通过仿真器获取训练需要的数据 优点:数据驱动,上限高,可处理复杂任务 缺点:不可解释性,强依赖数据,泛化性差 优点:采集效率高,成本低,数据多 样 缺点:与真实数据存在差异 交互对话:较为成熟,效率实时性需 要提升 9.9w 3.9w 高算力芯片 : 满足具身大模型 >100Tops算力
9. 具身智能中的技术演变 模块化<2021 ◼ 2 D 感知结果通过规则化后处 理转换到3 D 空间 Detect and Gr asp BEV 感知( 20 21 - 2022) ◼ 感知结果直接输出到 planning 的空间,减少后处理 ◼ 为端到端奠定基础 I mitation Lear ni n g 端到端(2023 - 20 2 4 ) VLA(202 5 - ) ◼ 更多的learningbased 更少的rulebased ◼ 利用预训练模型的通用理解能力, ◼ 减少了模块间的信息损失 解决cornercase 问题 ◼ 拟人化的效果,scalinglaw 得到验证 ◼ 智能驾驶开始具备思考能力 VLA ◼ 场景泛化性 ◼ 任务泛化性 ◼ 本体泛化性
10. VLA 的模型结构 ➢ VLM 在LLM 的基础之上增加视觉输入,在互联网上海量的数据训练,具备了通用“常识”能力 ➢ VLA 在VLM 的基础之上,增加了Action Policy 模块,将VLM 的特征映射到Action, 输出机器人的关节角度或者轨迹 ➢ 具身领域代表性的工作有OpenVLA 、Pi- 0、Pi- 0.5、GrootN1 等
11. VLA 的各种尝试 叠衣服 倒水 微波炉热菜 收纳 打麻将 做香囊
12. VLA 操作模型的性能现状 1 泛化能力和通用能力非常有限 2 当前的数据规模不足以发挥VLA的性能 ➢ VL 和A 的数据分布存在显著差异,L起不到作用,反而导致模型难以学习 ➢ VLA 需要海量的高质量、多样性数据,目前的条件不具备 ➢ 硬件和模型的限制,VLA 很难完成精细的任务 正常数据 背景发生变化 ➢ VLA 算力要求高,相比VA 更适合作为落地方案 Success 饮料放到了远处 Failed Failed 其它饮料瓶干扰 Failed 安全 等级 VLA 的性 能还处 在初级 阶段 控制精 度 自由 度 场景复杂度 智能 驾驶 极高 厘米级 3 场景单一, 但强交互博 弈 具身 智能 极高 毫米级 30+ 场景复杂 3 数据量 千万clips 级别, 对应10w+ 小时 硬件结构没有标准化,影响数据规模 百小时级别
13. 02 VLA 的主流架构
14. 一段式架构vs分层式架构 分层式:非全程可求导 传感器 传感器 System1 (“直觉”快系统 执行器 完全端到端:全程可求导 System2 VLA (视觉-语言-动作模型 执行器
15. 分层式架构:目前最具备落地可行性的方案 充分利用VLM的通用“常识”进行任务规划,通过动作原子完成复杂长程任务
16. 低成本纯视觉VA 方案构建动作原子库 ◼ 纯视觉方案性能超过RGBD方案\泛化性和鲁棒性超过当前的VLA ◼ 3D-ware 预训练可明显提升任务的成功率 VO - DP: Semantic - Geometric Adaptive Diffusion Policy for Vision - Only Robotic Manipulation (Submitted to ICRA 2026 )
17. 纯视觉VA 方案 VO - DP: Semantic - Geometric Adaptive Diffusion Policy for Vision - Only Robotic Manipulation (Submitted to ICRA 2026 )
18. Agentic - VLA ✓ Agentic VLA 将只能完成单一任务的VA 算法,通过智能体相关的技术提升成能够完成长程复杂任务的VLA 算法 ✓ Agentic VLA 具备如下的关键能力:自然语音交互、复杂任务拆解和规划、VA 调用和自我纠错等 ✓ Agentic VLA 核心依赖的中枢为一个强大的VLM 模型,采用MCP 的技术方案将所有能力进行串联,具备良好的可拓展性和灵活性 VO - DP: Semantic - Geometric Adaptive Diffusion Policy for Vision - Only Robotic Manipulation (Submitted to ICRA 2026 )
19. Agentic - VLA 把积木从左手给到右手 整理桌面桌面 VO - DP: Semantic - Geometric Adaptive Diffusion Policy for 把一个盒子叠加到另一个盒子上 把插头从插排里拔出来 Vision - Only Robotic Manipulation (Submitted to ICRA 2026 )
20. 03 VLA 的数据方案
21. 遥操作 惯性动补设备 光学动补设备 外骨骼数据采集
22. 仿真 仿真在具身智能中起到的作用 •闭环学习/测试 •数据生产 一个仿真器需要考虑哪些要素 •丰富的资产 •物理仿真 •传感器仿真 •模型支持 •... 目前主流的仿真平台 •RoboTwin 2.0 •RoboVerse •DISCOVERSE
23. DISCOVERSE: 面向复杂真实世界的高保真多尺度仿真器 场景级高保真:采用laser- scanned 3 DGS 方案,对3 DGS 引入强几何正则,对于真实世界中的大规模、非朗 伯表面、精细结构、弱/重复纹理等各类复杂场景均能鲁棒地实现高质量Real2 Sim 物体级高保真:通过光照估计& PBR ,实现场景与物体的高质量联合渲染 https://github.com/TATP-233/DISCOVERSE DISCOVERSE: Efficient Robot Simulation inComplex High - Fidelity Environments (Accepted by IROS2025 )
24. TabletopGen :生成式桌面资产重建方案 我们聚焦一个很细分的任务:生成各种桌面场景,物体以刚体为主且可交互,因为目前绝大多数的操作任务都 是在不同类型的桌子上进行pick&place
25. TabletopGen :生成式桌面资产重建方案 数字表亲:与数字孪生不同,数据表亲不需要完全一比一重建,但是会确保场景中出现需要的物体
26. 04 VLA 模型的量化部署
27. VLA 大模型量化 ◼ 模型的训练基本都是在GPU上,推理时为了提升推理效率,降低内存占用,通常会将模型量化成低bit ◼ 1B 模型量化成int8, 对应大小为1Gb, 相比较float数据模型可以减少4倍内存
28. 模型量化部署流程 模型训练 模型开 发流程 训练框架 (PyTorch、TensorFlow、Caffe等) 训练数据集 开发板运行 模型转换 配置参数 上板模型 加载模型 校准数据集 测试数据集 推理 取训练数据集的子集 模型 文件 上板 模型 合法性检查 label 释放模型 其他数据 其他数据 基础应用示例包 后量化示例包 ai_benchmark 模型转换工具 工具链 支持 … … 通过合法性检查的模型文件 模型校准 模型量化 模型检查 UCP 部署SDK 模型调优 模型编译 精度调优 模型推理 静态性能分析工具 动态性能分析工具 模型一致性校验工具 板端性能测评工具 模型信息查看工具 仿真推理工具 ... 板端推理验证工具 HBDK编译器
29. 05 总结与展望
30. VLA 技术发展面临的挑战 . ◼ 真实数据采集成本高 、效率低、难度大仿 1. 缺少高质量的数据 2. 模型结构尚不成熟 3. 硬件本体精度和稳定性待提升 真数据和真实数据存在较大的gap ◼ 模型场景3D 表达能力不足,导致模型泛化性差 ◼ 缺少有效的时序融合能力,导致长程任务失败率高 ◼ 模型缺少对物理世界的理解 . ◼ 硬件构造和人类还有差距,影响机器人的灵活性、 稳定性和灵敏度 ◼ 尚不能完成复杂的操作,影响机器人的通用性
31. VLA 模型架构及训练范式的迭代优化方向 多模态信息 2 增加其它传感器,例如触觉传感器从而提升任 务的成功率和稳定性 强化学习 3 1 让VLA 模型学习更加灵活、鲁棒 4 3D 空间表达/记忆信息/思维链 World Model 在VLM 中注入3D 信息让模型具备3D 空间感知 能力,从而提升模型性能 结合世界模型,让VLA 具备更好的理解能力 VLA 的前沿方向
32. 为VLA 构建高效的数据闭环是智能化提升的关键 通过云端遥操进行安全兜底,并且回传数据进行性能迭代 随着智能驾驶/具身智能性能提升,云端接管次数变少,安全员可操作的车辆/机器人变多,成本降低 车端无人驾驶系统 云端遥操作 具身智能云端遥操作
33.
34. THANKS 大模型正在重新定义软件 Large Language Model Is Redefining The Software

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-03 06:51
浙ICP备14020137号-1 $访客地图$