具身智能中的 VLA 技术及其应用
如果无法正常显示,请先停止浏览器的去广告插件。
1. 具身智能中的 VLA 技术及其应用
隋伟
2. 源自智能驾驶,通往通用智能
计算架构
赋能智能驾驶
让人类生活更安全、更美好
开发平台
智能算法
加速机器智能进 化
促进人机和谐伴 生
产业生态
共通的三大计算 任 务
环境感知
人机交互
决策控制
3. 为机器人创造更简单的全链路开发基础设施
机器人云端开发环境
云
机器人算法中心 NodeHub
仿真环境 数据生成 训练降本 VSLAM 3D Occupancy 双目深度检测
简易部署 copilot 可视化验证 VLA/VLN Locomotion RL BEV
机器人操作系统
TogetheROS.Bot ROS2 Model Zoo
Linux Ubuntu Linaro
端
旭日智能计算芯片 RDK机器人开发者套件
S100/S100P RDK S100/S100P
旭日 3
旭日 5
RDK X3
RDK X5
4. 目录
01 具身智能中VLA 的现状和挑战
02 VLA 的主流架构
03 VLA 的数据方案
04 VLA 模型的量化部署
05 前景和展望
06
5.
6. 01
VLA 的现状和挑战
7. 具身智能:堪比“计算机诞生”级的颠覆式创新
2022
2015
2007
1980
个人电脑
智能手机
智能驾驶
具身智能
8. 具身智能:堪比“计算机诞生”级的颠覆式创新
当前阶段
G1
基础
模型
基础自动化
G2
通用原子技能
功能成熟度
Locomotion:盲眼运动较为成熟,
平衡性较好,环境实时反馈需要提升
数据
驱动
本体成熟
海量数据
G3
端到端操作
大模型
端到端操作
技能
底层模型
VLA: 从模块化往端到端发展, 模仿学习往
强化学习发展
顶层任务拆解
G4
长程
数据
G5
AGI
数据采集 硬件本体
遥操: 通过动捕设备、或者同构机械
臂进行数据采集 性能成本: 快速进步、成本降低、灵活
性通用性持续提升
任务运动规划
Manipulation:特定场景特定任务
训练效果好,泛化性较差
执行器械
优点:模块化可解释性强、数据依赖少
缺点:依赖规则,可扩展性差、无法处理
高自由度本体 优点:数据真实可用,有效性高
缺点:采集成本高、效率低
仿真: 通过仿真器获取训练需要的数据
优点:数据驱动,上限高,可处理复杂任务
缺点:不可解释性,强依赖数据,泛化性差 优点:采集效率高,成本低,数据多
样
缺点:与真实数据存在差异
交互对话:较为成熟,效率实时性需
要提升
9.9w
3.9w
高算力芯片 : 满足具身大模型
>100Tops算力
9. 具身智能中的技术演变
模块化<2021
◼ 2 D 感知结果通过规则化后处
理转换到3 D 空间
Detect and Gr asp
BEV 感知( 20 21 -
2022)
◼ 感知结果直接输出到 planning
的空间,减少后处理
◼ 为端到端奠定基础
I mitation Lear ni n g
端到端(2023 - 20 2 4 )
VLA(202 5 - )
◼ 更多的learningbased 更少的rulebased ◼ 利用预训练模型的通用理解能力,
◼ 减少了模块间的信息损失
解决cornercase 问题
◼ 拟人化的效果,scalinglaw 得到验证
◼ 智能驾驶开始具备思考能力
VLA
◼ 场景泛化性
◼ 任务泛化性
◼ 本体泛化性
10. VLA 的模型结构
➢ VLM 在LLM 的基础之上增加视觉输入,在互联网上海量的数据训练,具备了通用“常识”能力
➢ VLA 在VLM 的基础之上,增加了Action Policy 模块,将VLM 的特征映射到Action, 输出机器人的关节角度或者轨迹
➢ 具身领域代表性的工作有OpenVLA 、Pi- 0、Pi- 0.5、GrootN1 等
11. VLA 的各种尝试
叠衣服 倒水
微波炉热菜 收纳
打麻将
做香囊
12. VLA 操作模型的性能现状
1
泛化能力和通用能力非常有限
2
当前的数据规模不足以发挥VLA的性能
➢ VL 和A 的数据分布存在显著差异,L起不到作用,反而导致模型难以学习 ➢ VLA 需要海量的高质量、多样性数据,目前的条件不具备
➢ 硬件和模型的限制,VLA 很难完成精细的任务
正常数据
背景发生变化 ➢ VLA 算力要求高,相比VA 更适合作为落地方案
Success
饮料放到了远处
Failed
Failed
其它饮料瓶干扰
Failed
安全
等级
VLA 的性
能还处
在初级
阶段
控制精
度
自由
度 场景复杂度
智能
驾驶 极高 厘米级 3 场景单一,
但强交互博
弈
具身
智能 极高 毫米级 30+ 场景复杂
3
数据量
千万clips 级别,
对应10w+ 小时
硬件结构没有标准化,影响数据规模
百小时级别
13. 02
VLA 的主流架构
14. 一段式架构vs分层式架构
分层式:非全程可求导
传感器
传感器
System1
(“直觉”快系统
执行器
完全端到端:全程可求导
System2
VLA
(视觉-语言-动作模型
执行器
15. 分层式架构:目前最具备落地可行性的方案
充分利用VLM的通用“常识”进行任务规划,通过动作原子完成复杂长程任务
16. 低成本纯视觉VA 方案构建动作原子库
◼ 纯视觉方案性能超过RGBD方案\泛化性和鲁棒性超过当前的VLA
◼ 3D-ware 预训练可明显提升任务的成功率
VO - DP: Semantic - Geometric Adaptive Diffusion Policy for
Vision
- Only Robotic Manipulation (Submitted to ICRA 2026 )
17. 纯视觉VA 方案
VO - DP: Semantic - Geometric Adaptive Diffusion Policy for
Vision
- Only Robotic Manipulation (Submitted to ICRA 2026 )
18. Agentic - VLA
✓ Agentic VLA 将只能完成单一任务的VA 算法,通过智能体相关的技术提升成能够完成长程复杂任务的VLA 算法
✓ Agentic VLA 具备如下的关键能力:自然语音交互、复杂任务拆解和规划、VA 调用和自我纠错等
✓ Agentic VLA 核心依赖的中枢为一个强大的VLM 模型,采用MCP 的技术方案将所有能力进行串联,具备良好的可拓展性和灵活性
VO - DP: Semantic - Geometric Adaptive Diffusion Policy for
Vision
- Only Robotic Manipulation (Submitted to ICRA 2026 )
19. Agentic - VLA
把积木从左手给到右手
整理桌面桌面
VO - DP: Semantic - Geometric Adaptive Diffusion Policy for
把一个盒子叠加到另一个盒子上
把插头从插排里拔出来
Vision
- Only Robotic Manipulation (Submitted to ICRA 2026 )
20. 03
VLA 的数据方案
21. 遥操作
惯性动补设备
光学动补设备
外骨骼数据采集
22. 仿真
仿真在具身智能中起到的作用
•闭环学习/测试
•数据生产
一个仿真器需要考虑哪些要素
•丰富的资产
•物理仿真
•传感器仿真
•模型支持
•...
目前主流的仿真平台
•RoboTwin 2.0
•RoboVerse
•DISCOVERSE
23. DISCOVERSE:
面向复杂真实世界的高保真多尺度仿真器
场景级高保真:采用laser- scanned 3 DGS 方案,对3 DGS 引入强几何正则,对于真实世界中的大规模、非朗
伯表面、精细结构、弱/重复纹理等各类复杂场景均能鲁棒地实现高质量Real2 Sim
物体级高保真:通过光照估计& PBR ,实现场景与物体的高质量联合渲染
https://github.com/TATP-233/DISCOVERSE
DISCOVERSE: Efficient Robot Simulation inComplex High - Fidelity Environments (Accepted by IROS2025 )
24. TabletopGen :生成式桌面资产重建方案
我们聚焦一个很细分的任务:生成各种桌面场景,物体以刚体为主且可交互,因为目前绝大多数的操作任务都
是在不同类型的桌子上进行pick&place
25. TabletopGen :生成式桌面资产重建方案
数字表亲:与数字孪生不同,数据表亲不需要完全一比一重建,但是会确保场景中出现需要的物体
26. 04
VLA 模型的量化部署
27. VLA 大模型量化
◼ 模型的训练基本都是在GPU上,推理时为了提升推理效率,降低内存占用,通常会将模型量化成低bit
◼ 1B 模型量化成int8, 对应大小为1Gb, 相比较float数据模型可以减少4倍内存
28. 模型量化部署流程
模型训练
模型开
发流程
训练框架
(PyTorch、TensorFlow、Caffe等)
训练数据集
开发板运行
模型转换
配置参数 上板模型 加载模型
校准数据集 测试数据集 推理
取训练数据集的子集
模型
文件
上板
模型
合法性检查
label
释放模型
其他数据
其他数据
基础应用示例包
后量化示例包
ai_benchmark
模型转换工具
工具链
支持
… …
通过合法性检查的模型文件
模型校准 模型量化 模型检查 UCP
部署SDK
模型调优 模型编译 精度调优 模型推理
静态性能分析工具 动态性能分析工具 模型一致性校验工具 板端性能测评工具
模型信息查看工具 仿真推理工具 ... 板端推理验证工具
HBDK编译器
29. 05
总结与展望
30. VLA 技术发展面临的挑战
.
◼ 真实数据采集成本高 、效率低、难度大仿
1. 缺少高质量的数据
2. 模型结构尚不成熟
3. 硬件本体精度和稳定性待提升
真数据和真实数据存在较大的gap
◼ 模型场景3D 表达能力不足,导致模型泛化性差
◼ 缺少有效的时序融合能力,导致长程任务失败率高
◼ 模型缺少对物理世界的理解
.
◼ 硬件构造和人类还有差距,影响机器人的灵活性、
稳定性和灵敏度
◼ 尚不能完成复杂的操作,影响机器人的通用性
31. VLA 模型架构及训练范式的迭代优化方向
多模态信息
2
增加其它传感器,例如触觉传感器从而提升任
务的成功率和稳定性
强化学习
3
1
让VLA 模型学习更加灵活、鲁棒
4
3D 空间表达/记忆信息/思维链 World Model
在VLM 中注入3D 信息让模型具备3D 空间感知
能力,从而提升模型性能 结合世界模型,让VLA 具备更好的理解能力
VLA 的前沿方向
32. 为VLA 构建高效的数据闭环是智能化提升的关键
通过云端遥操进行安全兜底,并且回传数据进行性能迭代
随着智能驾驶/具身智能性能提升,云端接管次数变少,安全员可操作的车辆/机器人变多,成本降低
车端无人驾驶系统
云端遥操作
具身智能云端遥操作
33.
34. THANKS
大模型正在重新定义软件
Large Language Model Is Redefining The Software