如何在浏览器内构建一个具身智能平台

如果无法正常显示,请先停止浏览器的去广告插件。
分享至:
1. 如何在浏览器内构建 身智能平台 Tim Qian 个具
2.
3. 我介绍
4. 🎋 BamBot 的故事
5. AI 热潮之前,我曾经 捣过的机器
6. 宇数机器 ,Aloha,AI 热潮 2024 年 5 ¥99000 2024 年 1 $32000
7. 从 SO-100 机械臂 到 BamBot 2024年10 ~$100 机械臂 https://github.com/huggingface/lerobot 2025年3 ~$300 机器 https://github.com/timqian/bambot
8. 如何控制它? 1. Fork lerobot 2. 改代码和 档 🤯
9. 第 个买家
10. 🤔 让机器 为 活
11. 前主流的两种机器 LeRobot
12. 设想 传统 有没有可能 安装环境 学习编程 打开浏览器 配置参数 编写代码 连接机器 连接机器 式 调试运 开始使
13. 02 户体验设计
14. : 户选择想要操控的机器 着陆
15. 仿真控制 机器
16. 以 APP 的形式 持不同的功能
17. 机器 仿真控制 - APPs APP toggles
18.
19. 03 如何构建这个平台
20. 3·1 在浏览器 3D 渲染和仿真
21. 描述机器 的两种 件格式 URDF MJCF (Unified Robot Description Format) (MuJoCo Modeling Language) - 基于 xml - ROS(Robot Operating System) 态系统的标准格式 - 主要 于机器 可视化、运动学和简单动 学仿真 收集不同机器 - 基于 xml - MuJoCo物理引擎的原 格式 - 更强 的物理仿真能 (接触、摩擦、软体等) 3d 模型: https://github.com/robot-descriptions/robot_descriptions.py
22. 机器 的两个核 Joint (关节) Link (连杆/刚体) 概念
23. 机器 的两个核 Joint (关节) Link (连杆/刚体) 概念
24. 例
25. 例 URDF MJCF
26. 如何在浏览器 渲染 URDF-loader Mujoco-wasm 把 URDF 格式转化成 three.js 格式渲染 把 MJCF 格式转化成 three.js 格式渲染 Based on Based on Three.js 基于WebGL 的抽象层,可以 更简单的 式创建 3D 场景、光照、相机、材质、动画等 Based on WebGL 浏览器内置的底层 3D 渲染 API,直接与 GPU 通信,功能强 但使 复杂 https://github.com/mrdoob/three.js https://github.com/zalo/mujoco_wasm https://github.com/gkjohnson/urdf-loaders
27.
28. 3·2 连接各种机器 和传感器
29. 浏览器的能 Web serial API 通过串 端 与设备通信 Web HID API 与 HID(Human Interface Device)设备交互 Web USB API 访问 USB 设备 USB 摄像头 连接舵机驱动板、ESP32、Arduino 等开发板,读取传感器数据 连接电机/舵机 游戏 柄、操纵杆、键盘、 (特殊功能 3D 空间 标) 连接控制器 标 USB 摄像头,3D 打印机等 连接相机
30. 3·3 多种 AI 模型适配 RL ACT/Diffusion policies LLM VLA
31. Reinforcement Learning (强化学习)
32. 例 - 机器 学打 训练模型 球 真机部署 2025 年 3 - ETH Zurich (苏黎世联邦理 学院) https://www.science.org/doi/epdf/10.1126/scirobotics.adu3922
33. Reinforcement Learning (强化学习) 主要优势 • 可以 主学习, 需 范 • 潜 超越 类:理论上可以找到最优策略 主要局限 • 迁移学习困难
34. ACT / Diffusion Policies(模仿学习) 动驾驶 机器 操作:抓取、装配等复杂任务 机交互 为模仿
35. 例 - Aloha / Mobile Aloha 示例教学 部署模型 2024 年 1 Stanford (斯坦福) https://mobile-aloha.github.io/
36. ACT / Diffusion Policies(模仿学习) 主要优势 • 学习效率 :直接从专家经验学习,避免 • 适合复杂任务: 需精确建模奖励函数 主要局限 量试错 • 依赖数据质量:专家 范的质量直接影响学习效果 • 难以超越 范:模型表现上限受限于专家 平
37. VLA(Vision-Language-Action) 化
38. 例 :pi-0.5 2025 年 4 Physical Intelligence https://www.physicalintelligence.company/blog/pi05
39. VLA(Vision-Language-Action) 模型
40. 混合模型 接下来机器各关节状态
41. 模型的共性 图像/传感器信息 当前机器各关节状态 AI 接下来机器各关节状态
42. BamBot 架构 3D 模型 相机, 传感器 键盘控制 游戏 当前传感器状态 柄控制 遥控指令 回放动作 映射 接下来的电机状态 Bambot 当前电机状态 … 机器 A 机器 机器 当前传感器和电机状态 B C 接下来的电机状态 AI https://github.com/timqian/bambot
43. 两朵乌云
44. 04 最新进展
45. 浏览器直接跑 AI 模型:ONNX Runtime 2025 年 10 Tatsuki Tsujimoto https://github.com/ttktjmt/muwanx
46. Mujoco in the browser(官 持) - Issue: https://github.com/google-deepmind/mujoco/issues/2585#issuecomment-3213407529 - PR: https://github.com/google-deepmind/mujoco/pull/2903
47. 不远的未来 作
48. BamBot 的未来 - 开源项 的商业化挑战 1.制作更好的,更便宜的机器卖给普通 户? 2.聚焦于软件,与机器 商合作接 更多机器? 3.与有机器 动化需求的企业合作?
49.
50. THANKS https://github.com/timqian/bambot

首页 - Wiki
Copyright © 2011-2025 iteam. Current version is 2.147.1. UTC+08:00, 2025-11-04 05:00
浙ICP备14020137号-1 $访客地图$