如何在浏览器内构建一个具身智能平台

1. 如何在浏览器内构建身智能平台 Tim Qian 个具

2.

3. 我介绍

4. 🎋 BamBot 的故事

5. AI 热潮之前，我曾经捣过的机器

6. 宇数机器，Aloha，AI 热潮 2024 年 5 ¥99000 2024 年 1 $32000

7. 从 SO-100 机械臂到 BamBot 2024年10 ~$100 机械臂 https://github.com/huggingface/lerobot 2025年3 ~$300 机器 https://github.com/timqian/bambot

8. 如何控制它？ 1. Fork lerobot 2. 改代码和档 🤯

9. 第个买家

10. 🤔 让机器为活

11. 前主流的两种机器 LeRobot

12. 设想传统有没有可能安装环境学习编程打开浏览器配置参数编写代码连接机器连接机器式调试运开始使

13. 02 户体验设计

14. ：户选择想要操控的机器着陆

15. 仿真控制机器

16. 以 APP 的形式持不同的功能

17. 机器仿真控制 - APPs APP toggles

18.

19. 03 如何构建这个平台

20. 3·1 在浏览器 3D 渲染和仿真

21. 描述机器的两种件格式 URDF MJCF (Unified Robot Description Format) (MuJoCo Modeling Language) - 基于 xml - ROS（Robot Operating System）态系统的标准格式 - 主要于机器可视化、运动学和简单动学仿真收集不同机器 - 基于 xml - MuJoCo物理引擎的原格式 - 更强的物理仿真能（接触、摩擦、软体等） 3d 模型： https://github.com/robot-descriptions/robot_descriptions.py

22. 机器的两个核 Joint (关节) Link (连杆/刚体) 概念

23. 机器的两个核 Joint (关节) Link (连杆/刚体) 概念

24. 例

25. 例 URDF MJCF

26. 如何在浏览器渲染 URDF-loader Mujoco-wasm 把 URDF 格式转化成 three.js 格式渲染把 MJCF 格式转化成 three.js 格式渲染 Based on Based on Three.js 基于WebGL 的抽象层，可以更简单的式创建 3D 场景、光照、相机、材质、动画等 Based on WebGL 浏览器内置的底层 3D 渲染 API，直接与 GPU 通信，功能强但使复杂 https://github.com/mrdoob/three.js https://github.com/zalo/mujoco_wasm https://github.com/gkjohnson/urdf-loaders

27.

28. 3·2 连接各种机器和传感器

29. 浏览器的能 Web serial API 通过串端与设备通信 Web HID API 与 HID（Human Interface Device）设备交互 Web USB API 访问 USB 设备 USB 摄像头连接舵机驱动板、ESP32、Arduino 等开发板，读取传感器数据连接电机/舵机游戏柄、操纵杆、键盘、（特殊功能 3D 空间标）连接控制器标 USB 摄像头，3D 打印机等连接相机

30. 3·3 多种 AI 模型适配 RL ACT/Diffusion policies LLM VLA

31. Reinforcement Learning (强化学习)

32. 例 - 机器学打训练模型球真机部署 2025 年 3 - ETH Zurich (苏黎世联邦理学院) https://www.science.org/doi/epdf/10.1126/scirobotics.adu3922

33. Reinforcement Learning (强化学习) 主要优势 • 可以主学习，需范 • 潜超越类：理论上可以找到最优策略主要局限 • 迁移学习困难

34. ACT / Diffusion Policies（模仿学习）动驾驶机器操作：抓取、装配等复杂任务机交互为模仿

35. 例 - Aloha / Mobile Aloha 示例教学部署模型 2024 年 1 Stanford (斯坦福) https://mobile-aloha.github.io/

36. ACT / Diffusion Policies（模仿学习）主要优势 • 学习效率：直接从专家经验学习，避免 • 适合复杂任务：需精确建模奖励函数主要局限量试错 • 依赖数据质量：专家范的质量直接影响学习效果 • 难以超越范：模型表现上限受限于专家平

37. VLA（Vision-Language-Action）化

38. 例：pi-0.5 2025 年 4 Physical Intelligence https://www.physicalintelligence.company/blog/pi05

39. VLA（Vision-Language-Action）模型

40. 混合模型接下来机器各关节状态

41. 模型的共性图像/传感器信息当前机器各关节状态 AI 接下来机器各关节状态

42. BamBot 架构 3D 模型相机, 传感器键盘控制游戏当前传感器状态柄控制遥控指令回放动作映射接下来的电机状态 Bambot 当前电机状态 … 机器 A 机器机器当前传感器和电机状态 B C 接下来的电机状态 AI https://github.com/timqian/bambot

43. 两朵乌云

44. 04 最新进展

45. 浏览器直接跑 AI 模型：ONNX Runtime 2025 年 10 Tatsuki Tsujimoto https://github.com/ttktjmt/muwanx

46. Mujoco in the browser（官持） - Issue: https://github.com/google-deepmind/mujoco/issues/2585#issuecomment-3213407529 - PR: https://github.com/google-deepmind/mujoco/pull/2903

47. 不远的未来作

48. BamBot 的未来 - 开源项的商业化挑战 1.制作更好的，更便宜的机器卖给普通户？ 2.聚焦于软件，与机器商合作接更多机器？ 3.与有机器动化需求的企业合作？

49.

50. THANKS https://github.com/timqian/bambot