具身智能:从机器人秀场到万亿数据新生态的破局之路

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 具身智能: 从机器人秀场到万亿数据新生态的破局之路 谦鸿 蚂蚁数字科技 具身智能技术专家 蚂蚁终端体验科技大会
2. 1.巡检机器 业务场景 2.具身智能技术发展现状 3.蚂蚁数科数据采集 案 4.数据采集训练成果 5.数科具身智能平台
3.
4. 巡检场景流程 01 勘探规划巡检路线 04 02 03 完成巡检,实时上报巡检 结果并 成巡检报告 设置部署巡检点位与任务 根导航路径实时巡视点位 05 返回充电/ 主充电完毕后 再进 下 轮 主巡检
5. 表计数据读取 安全进 全 位的记录。机器 个仪表的识别时间平均为20 的提 现场记录的效率。
6. 跑冒滴漏检测 应 场景:设备装置区易泄露装置检测 机器 测 通过AI视觉识别技术等检 段,对 测。系统搭载 作设备进 跑冒滴漏检 精度云台+ 清摄像 机精准定位泄漏点,对焦拍照发送 后端平台,平台上显示泄漏位置的坐 标并预警,实现“跑、冒、滴、漏”检 测。
7. 环境感知数据 操作交互数据 设备参数数据 运动控制数据
8. 获取、处理、理解环境和 能进 决策学习能 身状态信息,并 推理、判断、构建和运 知识的能 执 表现能 协作交互能 在多种环境和任务中实现精准感知、逻辑精准控制关节运动及末端操作,并具备机与 推理、任务规划和动态决策的能体移动、动态平衡、定位导航、执体进 复杂 类、环境以及其他机器 安全、 然、 或其他智能 效的沟通和协作 动作及任务的综合能 主知识构建我演进 跨领域认知 类 灵活执群体协同 知识迁移复杂操作个性化交互 场景理解任务规划与学习具运情绪识别 多模态融合简单推理多任务协调多模态理解 单模态感知规则执基础运动单模态响应 《 具身智能当前还处在智能化的初级阶段 形机器 智能化分级》(T/CIE 298-2025)
9. 运动控制 进步,具身智能的难点在操作模型 快速进展的运动控制任重道远的操作控制 LocomotionManipulation
10. 具身智能Scaling Law :智能来源于数据 具身智能模型性能依然遵循Scaling Law,更多的数据和算 根据推算,每多采10倍数据,机器 物体/环境泛化能 单 Success Rate (%) 10-1 = 1.068 · -0.579 = - 0.980 80 60 40 Trend Line 80% Success Rate ~80% at 728 traj Average Data 20 1 2 4 8 16 1 32 Number of Training Objects 2 4 8 16 32 0 1 2 4 8 16 32 250 500 750 1000 (c)10cm*10cm*10cm Space 3×10-1 2×10-1 = 1.263 · -0.683 = - 0.942 2 4 8 16 32 Number of Training Objects 1 2 4 8 16 Number of Training Envs 32 80 60 40 Trend Line 80% Success Rate ~80% at 8098 traj Average Data 20 80 10-1 1 4000 6000 8000 Number of Trajectories (num_traj) 2 4 8 16 2500 5000 7500 10000 12500 Number of Trajectories (num_traj) 32 (24005,80%) 80 60 40 Trend Line 80% Success Rate ~80% at 14638 traj Average Data 20 80 60 15000 10000 5000 40 Trend Line 80% Success Rate ~80% at 24005 traj Average Data 20 0 80 80 0 1 (e)Full Space(41cm*30cm*28cm) 100 (14638,80%) Success Rate (%) Success Rate (%) 4×10-1 100 Optimality Gap Optimality Gap Optimality Gap 10-1 = 0.827 · -0.466 = - 0.966 6×10-1 2000 (d)20cm*20cm*20cm Space (8098,80%) 100 = 0.826 · -0.697 = - 0.991 0 1250 100 Mouse Arrangement Mouse Arrangement 100 20000 Trend Line 80% Success Rate ~80% at 1951 traj Average Data 20 Number of Trajectories (num_traj) 100 Data Points Fitted Curve 40 Number of Training Env-Object Pairs Number of Training Envs Mouse Arrangement 25000 60 80 80 10-1 80 Success Rate (%) 10-1 = 1.180 · -844 = - 0.960 Relationship between Volume and Required Data (1951,80%) (728,80%) 100 Optimality Gap = 0.825 · -0.703 = - 0.987 (b)5cm*5cm*5cmSpace 100 Success Rate (%) 100 Optimality Gap Optimality Gap 100 空间泛化能 场景成功率 100 Pour Water 约10倍。 Data(num_traj) Pour Water 0 5000 10000 15000 20000 25000 Number of Trajectories (num_traj) 0 10000 20000 30000 40000 Number of Trajectories (num_traj) 0 5000 10000 15000 20000 25000 30000 35000 Volume (cm^3) Number of Training Env-Object Pairs Figure 5:Power-law relationship.Dashed lines represent power-law fits,with the equations pro-vided in the legend. All axes are shown on a logarithmic scale. The correlation coefficient (Pearson’s )indicates a power-law relationship between the generalization ability and the number of objects,environments,and environment-objectpairs.See Appendix G.1 for data scaling laws on MSE.Figure 5:Power-law relationship.Dashed lines represent power-law fits,with the equations pro-vided in the legend. All axes are shown on a logarithmic scale. The correlation coefficient (Pearson’s )indicates a power-law relationship between the generalization ability and the number of objects,environments,and environment-objectpairs.See Appendix G.1 for data scaling laws on MSE.Figure 4:The relationship between spatial volume and data amounts needed to reach 80% grasping success rate.The Fitted curver epresents a power function =640.32 · 0.35. 模型对于新物体/新环境的泛化能成功率与数据量呈现出空间泛化所需数据量与空间体积呈现幂律关系,即更多数据可显著提升更 ,与其训练时接触的物体/环境 在成功率 数量之间,呈现幂律关系 -曼特恩(Michaelis-Menten)动 学曲线: 较低的时候,增加数据量可以显著提升成功率 成功率达到80%-90%之后,数据量即使再继续增加,模仿学习策略的成 空间范围内的泛化能 。 如如果要扩展到x倍的空间体积,那么数据量需要扩展 约x0.35倍 功率也逐渐趋于饱和,上升缓慢 Data scaling laws in imitation learning for robotic manipulation Data scaling laws in imitation learning for robotic manipulation *运动控制主要训练范式是基于仿真环境的强化学习 错误率才会降低 (a)FixPoint Pour Water 带来更聪明的机器
11. 具身智能 前的数据量远低于LLM处理的数据量 LLM训练数据量约万亿token级别 头部公司动驾驶训练数据约百亿 具身智能前积累数万 时 时真机数据 -某证券研究机构 质量 为轨迹数据是 1亿条 撑具身智能 模型能 跃迁的关键 槛。 -某数据供应商 的柔性总装制造环节标准化程度较低,且要求成功率极 景可能需达到可投产的成功率,我们 ,如 前评估,这需要千万条级别的数据规模。 公 业场景最后 具身智能数据瓶颈亟待突破 业场
12. 具身智能:每 器坐标/关节 伺服
13. 典型 作 VoxPoser Saycan PaLM-E 典型 作 典型 LOVON 脑 作 Helix 脑 模型调 InstructNav 位 姿 估 计 轨 迹 控 制 本体 端到端模型 典型 作 RT1/2 脑 定 位 导 航 GR00T 脑 技能模型调 函数API调 数据驱动的主流具身智能模型技术 … 导 航 模 型 AnyGraspDiffision Policy 抓 取 模 型轨 迹 生 成 模 型 本体 通 … 典型模型 脑OpenVLA 操作模型π0 数 据 需 求 RDT 本体 本体 数据量需求低数据量需求 泛化期望低泛化期望
14. 具身智能数据发展的“困局 质量、成本、通 性,始终难寻最优解 程” 数据质量 同构遥操 HOMIE GELLO Mobile ALOHA 可穿戴遥操/ 持遥操 AirExo HATO ACE 视觉遥操/光惯遥操 DIMEDexPilotHumanPlu AnyTeleopDexCapOmniH2O 末端执 UMI 器示教/动捕示教 Fast-UMI 仿真数据/世界模型 DexonomySim Issac 第 /第三视 视频示教 EgoVLA 数据通 性
15. HOPE High-quality Omnimodal Price-efficient EAI Data 基于AI眼镜的 成伴随具身数据采集 03 仿真环境数据合成技术 04 基于 成式模型的数据扩增
16. 颜 映射压 箭头 强度 向反映接触 向 反馈 套 降低成本与复杂度 操作员通过视觉“感知”触觉 动态更新频率 >60Hz 需额外触觉设备 稳定抓取与精细操作 实时直观反馈 触觉 /朝向 眼识别 轻松上 便携可扩展 商超、 业各类遥操作场景 泛适 视触觉反馈灵巧
17. 数据采集装置 线,实现 产伴随式数据采集 第三视 AI拍摄眼镜记录第 视 AI拍摄眼镜 持夹 持夹 第 UMI 记录末端运动轨迹
18. 体数据向异构机器
19. 仿真环境数据合成技术 基于数字孪 的资产合成 场景1:1 精度仿真还原 物体1:1材质重建与操纵点标注 现实多视 图像 数字孪 资产 操纵点标注 任务场景泛化 场景空间关系与任务描述 物体affordance 任务泛化 空间 何约束 任务action轨迹 静态物品多样、 纹理多样、放置多样 仿真数字环境重建 基于Agent的决策合成 基于策略模型的轨迹合成 同 真实物理环境参照 任务分解:COWP 代码COWP 成: RoboCodex
20. 视觉分布迁移 Vision Domain Transfer 成式模型的数据扩增 成提升数据多样性,扩充 反事实 视觉 多样性扩充 尾难例(long-tail corner case) 成 Counterfactual Generation 实采数据: 初始帧 “前进,将 具固定在架 上“ Video Editing 视觉 相似性迁移 数 据 扩 增 ×N 基于 成操作失败的情况: “具从 中滑落,掉到地上“ “将具放在左 侧的实验台上“ Video Editing 成其他操作可能性
21. 程任务拆分及规划任务标注Long-term Task Breakdown and Planning Annotation Step1: 程任务拆分 导航轨迹标注 Navigation Trajectory Annotation Task1: 寻找待测试 具 Task2: 抓取待测试 Step2: 场景及任务描述 具 Task3: 导航 实验台区域 Task4:将 具固定到实验台 导航场景重建 “向前 ” “右转40度” 可达性标注 成 Affordance Annotation The image shows a laboratory or research setup with various equipment and objects: Face Masks: There are four white face masks mounted on a black pegboard. The masks appear to be 3D printed or sculpted, possibly for facial recognition testing or other research purposes. Smartphones: In front of the computer, there are four smartphones placed on the table. They are arranged in a row and appear to be part of the testing or research setup. 测试物料位置标注 <Task1: Find the mask>, <Task2: Grasp the mask>, …, <Fix the mask on the board> A The goal is <setup face mask>. What should be do step- by-step:? Q 可抓取位置标注 操作轨迹标注 成+筛选 Operation Trajectory Annotation QWhat just occurred? What should be do next? AThe mask has been successfully brought to the vicinity of the experimental platform. The next task is to secure the mask. Step3: 规划任务问答 + 主机辅多维数据标注 Planning in context Successful Judgement ErrorRecovery
22. 测试材料移动抓取 分拣和放置 值守时 测试物料搬运 >40H 移动操作任务 >70% 单位时间测试攻破率提升 VLA驱动的 35% 安全攻击测试 程操作任务成功率 数据驱动下的具身智能阶段性成果 单机型测试周期压缩 8h 3.2h
23. 致 Endless 具身智能平台
24. THE END THANKS

Главная - Вики-сайт
Copyright © 2011-2025 iteam. Current version is 2.148.2. UTC+08:00, 2025-12-25 12:29
浙ICP备14020137号-1 $Гость$