如何在浏览器内构建一个具身智能平台
如果无法正常显示,请先停止浏览器的去广告插件。
1. 如何在浏览器内构建
身智能平台
Tim Qian
个具
2.
3. 我介绍
4. 🎋
BamBot 的故事
5. AI 热潮之前,我曾经 捣过的机器
6. 宇数机器
,Aloha,AI 热潮
2024 年 5
¥99000
2024 年 1
$32000
7. 从 SO-100 机械臂 到 BamBot
2024年10
~$100 机械臂
https://github.com/huggingface/lerobot
2025年3
~$300 机器
https://github.com/timqian/bambot
8. 如何控制它?
1. Fork lerobot
2. 改代码和 档
🤯
9. 第
个买家
10. 🤔
让机器
为
活
11. 前主流的两种机器
LeRobot
12. 设想
传统
有没有可能
安装环境 学习编程 打开浏览器
配置参数 编写代码 连接机器
连接机器
式
调试运
开始使
13. 02
户体验设计
14. :
户选择想要操控的机器
着陆
15. 仿真控制
机器
16. 以 APP 的形式 持不同的功能
17. 机器
仿真控制
- APPs
APP toggles
18.
19. 03
如何构建这个平台
20. 3·1
在浏览器
3D 渲染和仿真
21. 描述机器
的两种
件格式
URDF
MJCF
(Unified Robot Description Format)
(MuJoCo Modeling Language)
- 基于 xml
- ROS(Robot Operating System) 态系统的标准格式
- 主要 于机器 可视化、运动学和简单动 学仿真
收集不同机器
- 基于 xml
- MuJoCo物理引擎的原 格式
- 更强 的物理仿真能 (接触、摩擦、软体等)
3d 模型: https://github.com/robot-descriptions/robot_descriptions.py
22. 机器
的两个核
Joint (关节)
Link (连杆/刚体)
概念
23. 机器
的两个核
Joint (关节)
Link (连杆/刚体)
概念
24. 例
25. 例
URDF
MJCF
26. 如何在浏览器
渲染
URDF-loader
Mujoco-wasm
把 URDF 格式转化成 three.js 格式渲染
把 MJCF 格式转化成 three.js 格式渲染
Based on
Based on
Three.js
基于WebGL 的抽象层,可以
更简单的
式创建 3D 场景、光照、相机、材质、动画等
Based on
WebGL
浏览器内置的底层 3D 渲染 API,直接与 GPU 通信,功能强
但使
复杂
https://github.com/mrdoob/three.js
https://github.com/zalo/mujoco_wasm
https://github.com/gkjohnson/urdf-loaders
27.
28. 3·2
连接各种机器 和传感器
29. 浏览器的能
Web serial API
通过串
端
与设备通信
Web HID API
与 HID(Human Interface Device)设备交互
Web USB API
访问 USB 设备
USB 摄像头
连接舵机驱动板、ESP32、Arduino
等开发板,读取传感器数据
连接电机/舵机
游戏 柄、操纵杆、键盘、
(特殊功能 3D 空间 标)
连接控制器
标
USB 摄像头,3D 打印机等
连接相机
30. 3·3
多种 AI 模型适配
RL
ACT/Diffusion policies
LLM
VLA
31. Reinforcement Learning (强化学习)
32. 例
- 机器
学打
训练模型
球
真机部署
2025 年 3
- ETH Zurich (苏黎世联邦理
学院)
https://www.science.org/doi/epdf/10.1126/scirobotics.adu3922
33. Reinforcement Learning (强化学习)
主要优势
• 可以 主学习, 需 范
• 潜 超越 类:理论上可以找到最优策略
主要局限
• 迁移学习困难
34. ACT / Diffusion Policies(模仿学习)
动驾驶
机器 操作:抓取、装配等复杂任务
机交互 为模仿
35. 例
- Aloha / Mobile Aloha
示例教学
部署模型
2024 年 1
Stanford (斯坦福)
https://mobile-aloha.github.io/
36. ACT / Diffusion Policies(模仿学习)
主要优势
• 学习效率 :直接从专家经验学习,避免
• 适合复杂任务: 需精确建模奖励函数
主要局限
量试错
• 依赖数据质量:专家 范的质量直接影响学习效果
• 难以超越 范:模型表现上限受限于专家 平
37. VLA(Vision-Language-Action)
化
38. 例
:pi-0.5
2025 年 4 Physical Intelligence
https://www.physicalintelligence.company/blog/pi05
39. VLA(Vision-Language-Action)
模型
40. 混合模型
接下来机器各关节状态
41. 模型的共性
图像/传感器信息
当前机器各关节状态
AI
接下来机器各关节状态
42. BamBot 架构
3D 模型
相机, 传感器
键盘控制
游戏
当前传感器状态
柄控制
遥控指令
回放动作
映射
接下来的电机状态
Bambot
当前电机状态
…
机器
A
机器
机器
当前传感器和电机状态
B
C
接下来的电机状态
AI
https://github.com/timqian/bambot
43. 两朵乌云
44. 04
最新进展
45. 浏览器直接跑 AI 模型:ONNX Runtime
2025 年 10 Tatsuki Tsujimoto
https://github.com/ttktjmt/muwanx
46. Mujoco in the browser(官
持)
- Issue: https://github.com/google-deepmind/mujoco/issues/2585#issuecomment-3213407529
- PR: https://github.com/google-deepmind/mujoco/pull/2903
47. 不远的未来
作
48. BamBot 的未来 - 开源项 的商业化挑战
1.制作更好的,更便宜的机器卖给普通 户?
2.聚焦于软件,与机器
商合作接 更多机器?
3.与有机器
动化需求的企业合作?
49.
50. THANKS
https://github.com/timqian/bambot