具身智能技术在工程机械智能化中的应用实践
如果无法正常显示,请先停止浏览器的去广告插件。
1. 具身智能技术在工程机械
智能化中的应用实践
演讲人:干英豪
2. 01 网易伏羲机器人背景介绍
02 挖掘机器人发展路线
03 远控和智能化进展介绍
04 具身智能大模型的发展现状
05 具身智能大模型在挖掘机器人上的应用
06
3.
4. 网易伏羲机器人背景介绍
5. 背景:AI技术出圈游戏,伏羲机器人应运而生
AI感知表情重大突破
伏羲算法大赛
AI论文顶刊收录
灵动: 挖掘机器人
伏羲实验室成立
ACE智能云引擎
强化学习编程框架
沉浸式会议系统
AIGC广泛应用
有灵: 人机协作平台
灵动: 无人装载机
6. 背景: 有灵人机协作平台,赋能实体场景
虚拟
世界
灵
游
戏
平
有
真实世
界任务
任
......
务
......
平
台
虚拟
世界
电子游戏:链接玩家和虚拟世界空间
台
真实世
界任务
有灵任务平台:链接用工方和物理世界在线任务
7. 背景: 有灵人机协作平台,赋能实体场景
• 不同AI能力成熟度不同
众包平台
完整业务场景需要多种能力,现阶段不同AI能力的成熟
度不同,用人机协作的模式来解决短板AI模块,实现业
感知
务闭环。
AOP
• AI能力的迭代在于数据获取
AI能力的迭代瓶颈在于数据采集,物理世界的机器人数
面向智能体编程
认知
决策
据更难采集(具身智能),用人机协作的模式来实现
human-in-loop 数据采集,实现数据闭环。
动作
AI能力系统
8. 挖掘机器人发展路线
9. 背景:挖机机器人,探索人机协作新模式
挖掘机指数 矿业智能化 由虚向实
挖掘机作为工程机械的掌上明珠,其销 2021年6月,国家能源局印发《智能化 由虚向实,借助网易在游戏领域的深厚积
量通常被认为行业的风向标。“挖掘机 煤矿建设指南》,全面推进采掘设备智 累,发展我们的数字孪生人机协作平台。
指数”为分析宏观经济提供重要支持 能化、生产过程遥控化、管控平台一体 同时解决工程机械领域人口红利消失大背
——(李克强总理) 化,实现减人、增安、提效 景下的用工问题
10. 挖掘机器人技术路径
远程遥控 人机协作 全自主作业
• 传感缺失
• 网络延时
• 感知错位 游戏化交互+部分AI能力 • 场景复杂
• 鲁棒性不够
• 安全风险
11. 挖掘机器人产品规划
基础版
• 低延时视频流传输
• 深度信息缺失
• 临场感缺失
进阶版
• 游戏化设计
• AI能力模块
• 技能学习
智控版
• 任务学习
• 端到端具身智能模型
12. 远控和智能化进展介绍
13. 挖掘机器人远程遥控(基础版)
远程座舱控制
主视角画面传输
难点:低延时视频流传输、深度信息缺失
14. 挖掘机器人远程遥控(基础版)
低延时视频流传输
15. 挖掘机器人远程遥控(基础版)
AR 画面增强
3D实时重建
深度信息缺失
16. 挖掘机器人远程遥控(基础版)
实时远程透传功能
17. 挖掘机器人液压关节末端遥控(进阶版)
• 基于学习的液压控制模型建立和反馈控制
• 改变传统挖机控制方式,上手门槛更低
18. 挖掘机器人液压关节末端遥控(进阶版)
液压臂自动控制平稳,精度达 5cm
19. 挖掘机器人末端负载感知(进阶版)
末端负载感知精度小于 150N
20. 挖掘机器人移动导航能力(进阶版)
21. 挖掘机器人感知能力(进阶版)
行人检测,安全预警 作业设备识别
作业面地势高度实时感知 卡车关键点识别和位姿估计
22. 挖掘机器人人机协作自动装车(进阶版)
23. 开场视频
24. 具身智能大模型的发展现状
25. 具身智能技术路线
RT-1: Robotics Transformer for Real-World Control at Scale (v1 Submitted on 13 Dec 2022)
• 输入:图像和文本指令
• 输出:机械臂状态(x, y, z, r, p, y, gripper),移动底盘状态(x, y, yaw)
• 整体架构:将图像与文本指令抽取特征,再放入Transformer直接训练,对EverydayRobots机器人
的机械臂状态和移动底盘状态进行学习
•
数据集:耗时17个月,包含13个机器人,13万个片段,700多个任务的真实数据
26. 具身智能技术路线
RT-1: Robotics Transformer for Real-World Control at Scale (v1 Submitted on 13 Dec 2022)
27. 具身智能技术路线
PaLM-E: An Embodied Multimodal Language Model,2023
任务:去抽屉里拿薯片
大模型能理解人类的语言和意图,还需要机器人观察和操作环境中的物体,以及规划一系列的子目
标和动作。其输入是多模态的输入(如文本、图像、触觉信息以及机器人的3D空间状态等),输出
可被机器人逐步执行的任务步骤。
step1:导航到抽屉;
step2:打开抽屉;
step3:取出薯片;
step4:关闭抽屉;
step5:导航至主人处;
step6:将薯片交给主人;
28. 具身智能技术路线
PaLM-E: An Embodied Multimodal Language Model,2023
Push the blue cube to the bottom right corner
The task is to get a chip bag
29. 具身智能技术路线
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 2023
RT-2将视觉文本多模态大模型VLM具备的数学、推理、识别等能力和机器人比如RT-1的操作能力结合到一块了,形成了VLA的技
术路线雏形。
30. 具身智能技术路线
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, 2023
31. 具身智能技术路线
Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation,2024
Aloha基于低成本的硬件本体实现了遥操作数据采集和较复杂任务的示范学习验证。
32. 具身智能技术路线
π0: A Vision-Language-Action Flow Model for General Robot Control,October,2024
33. 具身智能技术路线
π0: A Vision-Language-Action Flow Model for General Robot Control,October,2024
Pi0 验证了VLA技术路线
的泛化性和实际效果(适
配不同任务, 一脑多形)
34. 具身智能技术路线
Helix: A Vision-Language-Action Model for Generalist Humanoid Control,2025
35. 具身智能技术路线
Helix: A Vision-Language-Action Model for Generalist Humanoid Control,2025
首个适用于人形机器人全自由度的VLA模型
36. 具身智能在挖掘机器人上
的应用
37. 挖掘机器人——具身智能技术路线
人形机器人只是具身智能一种理想本体承载形态,但不是唯一形态。现阶段更容易在非人形机器人场景落地
解决具体场景问题的可满足性(效果)
优先针对高价值的场景提升该场景的应用效果
38. 挖掘机器人——自动装车任务
在哪挖土?在哪卸土?如何运动?
传统框架
感知:获取周围环境信息,检测识别物体位置,并对环境建
•
模。
• 决策:task planning,给出合适的挖土点、卸土点。
• 规划:规划关节空间的轨迹。
• 控制:跟踪目标轨迹。
工程机械领域的“Pick-Place”任务
特点:人为设计,限制了系统的灵活性和泛化能力。
•
•
•
•
模块之间的接口基于工程规则,所传递的信息可能存在损
失。
各模块各自优化,缺少全局优化能力。
模块多复杂性高。
结合实际情况:(1、挖土手法单一;2、实际轨迹不如人工
丝滑流畅;3、挖土、卸土位置)
感知
决策
规划
工程机械领域的“Pick-Place”任务
目标: 端到端 自动装车模型,可部署泛化到不同场景
执行
39. “机械智心”:全球首个面向工程机械行业的具身智能训练框架
三阶段学习深度融合, 突破单一学习模式局限
在仿真环境反复练习,
提高操作精度和操作技巧
强化学习
针对任务轨迹数据进行模仿,
学习任务操作动作
专家数据学习
通过任务视频训练未来帧预测,
学习任务相关常识
视频数据学习
40. “灵掘”:全球首个露天矿山装车场景具身智能模型
基于马尔科夫(MDP)模型构建的端到端决策架构,可建模任意决策任务通用性
强
41. “灵掘”:全球首个露天矿山装车场景具身智能模型
视频生成预训练模型 + 策略扩散模型
42. “灵掘”:全球首个露天矿山装车场景具身智能模型
Scale-law
43. “灵掘”:全球首个露天矿山装车场景具身智能模型
模型泛化强、可适配不同卡车位置和作业模式
44. “灵掘”:全球首个露天矿山装车场景具身智能模型
基于示范数据实现料堆整理的手法学习,解决装车之外长尾环节无人化
45. “灵掘”:全球首个露天矿山装车场景具身智能模型
开放TB级真实作业视频数据集:涵盖不同品牌挖机、不同光照、不同采掘平台
https://huggingface.co/datasets/fuxi-robot/excavator-video
46. “灵掘”:全球首个露天矿山装车场景具身智能模型
开放百万级挖机作业示范轨迹数据集:包括激光,视觉,imu等传感器数据
https://huggingface.co/datasets/fuxi-robot/excavator-motion
47.
48.