cover_image

雪岭 · 具身智能中的深度相机技术(RGBD)

雪岭飞花 雪岭飞花
2025年01月07日 12:32
图片

图片来源:https://blog.csdn.net/blackmarlin/article/details/121332286

由于功能的差异,机器人的环境感知系统和汽车自动驾驶的有一定差异,尤其是其中深度相机,在机器人上的应用更为广泛。

例如,深度相机在部分人形机器人中的应用:

图片

其中:
  • 优必选:采用RGBD+双目相机;

  • 傅利叶GR-1:采用深度相机;

  • 开普勒的先行者:采用3D视觉+鱼眼环视相机;

  • 小米CyberOne:搭载的Mi-Sense深度视觉模组采用iToF+RGB(小米设计,欧菲光代工);

  • 追觅:采用ToF+结构光相机;

  • 智元A1:采用RGBD相机。

  • 波士顿动力的Atlas:采用RGB摄像头+ToF深度相机。


另外,深度相机在部分四足机器狗中的应用:

图片

深度检测有很多种方法,之前经常讨论的激光雷达、毫米波雷达等也属于深度检测单元。

基于视觉的深度检测技术,之前讨论的不多,本文特此做一些概览,请各位老师参考。

本文主要包括如下内容:

  1. 深度相机的定义、关键参数和分类;

  2. 基本原理、优势和挑战以及代表产品:

    • 被动双目深度相机;

    • 结构光深度相机;

    • ToF深度相机;

  3. 不同方案的性能对比和适用场景;


01

深度相机概览

1. 深度相机的定义

传统2D相机可以实现二维平面成像,而深度相机(有时也称为RGBD相机、3D相机等)采用深度传感技术,能够实现三维成像,除了提供目标对象的X和Y值之外,还能够提供深度值,可以更加真实、准确地呈现物体的形态与结构,提供更为丰富的环境感知能力。

2D感知和3D感知的区别示意图:

图片

相对于一般的2D相机,深度相机最大的特点是可以同时输出深度图。深度图(depth map)一般是一种灰度图像,其中每个像素点距离相机的距离信息,是计算机视觉中常用的一种图像表示方式,用于描述场景的三维结构。例如:

图片

图片

2. 深度相机关键参数

关键参数一般包括下面这些:
  • 空间分辨率 (Spatial Resolution:深度图像的像素数,即深度图的宽度和高度,决定了深度图的细节水平,例如640×480、1280×720等。

  • 视场角(Field of View, FOV):相机所能捕捉到的视野范围,通常以水平和垂直角度表示。

  • 深度测量范围(Depth Range):深度相机能够准确捕捉的最近与最远的距离区间,通常以米(m)为单位表示。

  • 深度精度 (Depth Accuracy):相机在深度方向上的精度,通常以毫米(mm)为单位表示。

  • 帧率 (Frame Rate):相机每秒捕获的深度图帧数,单位是FPS(Frames Per Second)。

  • 功耗 (Power Consumption):相机在工作时消耗的电能,以瓦特(W)为单位表示。


3. 分类方法

深度相机通常的分类方法如下:

图片

被动双目深度相机、ToF深度相机、结构光深度相机的基本原理对比:

图片

目前,结构光和ToF深度相机主要使用850nm和940nm这两个波段的近红外光。


除了以上三类深度相机外,还有其它种类的深度相机,比如:
  1. 光场深度相机:利用微透镜阵列得到不同深度平面的图像,可获取场景的多视角信息,从而计算出深度信息。

  2. 原位投射掩模技术深度相机:在CMO表面镀衍射薄膜,根据衍射情况确定距离。


02

被动双目深度相机

1. 原理

所谓“被动”,是指这类相机没有主动光源,完全依靠环境光提供目标信息。相对应的是“主动”相机,这类相机有主动发光的光源,例如本文后面要提到的结构光深度相机和ToF深度相机。注:下文如果没有特别说明,双目相机均是指被动双目相机。

双目相机是通过不同位置的两个摄像头拍摄同一幅场景,通过算法立体匹配出相应像点,从而计算出视差,然后基于三角测量原理计算深度信息。

图片

图片来源:https://www.cnblogs.com/AdaminXie/p/15710993.html

在两个相机已经校准的前提下,已知相机的光点距离、焦距和物体在画面内的水平距离等参数时,可计算得到真实距离信息。

图片

图片


2. 优劣势

优势:
  1. 结构简单,硬件成本低。

  2. 分辨率较高、适合中远距离测量,不依赖光源。


挑战:
  1. 非常依赖图像的特征匹配,如果被测场景缺乏纹理,则很难进行特征提取和匹配。

图片

图片来源:计算机视觉Life

  1. RGB双目相机识别效果非常依赖于外部光环境,在光照较暗、过度曝光的情况下,识别效果较差。

  2. 物体之间的遮挡会导致立体匹配失败或深度估计不准。

  3. 当目标在快速移动时,深度计算效果差。

  4. 计算量大,对硬件计算性能要求高。


3. 代表产品(RGB双目)

双目相机分为基于可见光的RGB双目相机,以及基于红外的IR双目相机。目前市面上常见的主要是RGB双目相机。

1)大疆

大疆将双目相机应用在许多产品上,在无人机和自动驾驶上均有采用。

如下是应用在自动驾驶中的双目摄像头模组:

图片

图片

图片来源:佐思汽车研究

2)元橡科技

元橡科技的车载双目产品:

图片

面向机器人的双目产品:

图片


图片

图片


3)鉴智机器人

鉴智机器人的双目方案如下:

图片

图片来源:https://mp.weixin.qq.com/s/PTuygemtwrA_kc42C2oRNQ

产品爆炸图:

图片

4)中科慧眼

中科慧眼开发了SE1、S1、S2等多款双目相机产品。

图片



03

结构光深度相机

1. 原理

结构光相机由红外投射器和红外摄像头(1个或者多个)共同组成,其中,红外投射器将一定模式的红外结构光透射于物体表面,在被测物体表面形成结构光图像,之后,由处于其他位置的红外摄像机进行探测,并根据光学三角测量原理进行深度计算。

图片

根据光结构化的方式,可以分为:点结构光、线结构光、面结构光、光学图案编码等等,其中,图案编码结构光还分为空域编码和时域编码等不同编码方式。

例如,正弦条纹结构光:

图片


单目结构光和双目结构光:

结构光相机按照红外接收镜头数目的不同,一般常见的是单目结构光相机和双目结构光相机。其中,单目结构光相机体积较小,精度较低。双目结构光相机体积较大,精度较高。

对于双目结构光相机,测量原理类似于被动双目相机,采用相同的双目视觉原理测量深度。红外投射器投射固定的红外纹理样式,提高在纹理不明显的环境中(例如白墙)的深度计算精度,辅助双目视觉测距。左右两个相机将图像数据送入内置的深度处理器,在其中基于双目测距的原理,计算每个像素的深度值。

而对于单目结构光相机,可以把投影仪看做一个“特殊相机”,或者说看做“相机的逆”。投影仪将投射的每个像素点的光进行编码,结构光相机将捕捉到的光信息进行解码。通过编码信息比对,可以知道打在物体表面的光是由投影仪那个像素发出的,从而通过三角法计算出目标这个点的深度信息。

2. 优劣势

优点:
  1. 近距离(1米内)精度较高,可达毫米甚至微米级。

  2. 分辨率较高,可达1280x1024。

  3. 有主动投影设备,受暗光和纹理影响较小。

  4. 方案较为成熟,容易小型化。


由于测量精度高,目前许多机器人(尤其是人形机器人),结构光深度相机被大量使用。不过,结构光深度相机也存在一些挑战。

挑战:
  1. 精度会随着距离的增加而逐渐变差。

  2. 投影光容易受环境光干扰,因此在环境光较强时,效果较差。

  3. 物体表面和材质会影响红外光的反射,例如:

1)深黑色物体会吸收大量的红外光,导致测量不准。
图片

图片来源:计算机视觉Life

2)表面光滑时,由于反射的红外光较少,导致测量不准。
图片

图片来源:计算机视觉Life

3)物体半透明时,同一次发射的结构光可能会接收到两次,导致造成深度的歧义性。
图片

图片来源:计算机视觉Life

4)全透明时,由于接收不到反射光,导致无法测量。
图片

图片来源:计算机视觉Life

  1. 结构光深度相机发射端和接收端通常有一定的间距,因此在物体的边缘有明显的视差。在角度比较小的侧面上反射比较严重,经常出现比较大的黑洞。

图片

图片来源:计算机视觉Life

因此,结构光相机更适用于工作在室内,并且对于近距离物体检测有较高精度的场景。


3. 代表产品

1)单目结构光

  1. 微软:Kinect v1

最早做结构光传感器的是以色列PrimeSense公司,该公司成立于2005年。

2006年,PrimeSense成功研制出基于结构光原理的3维传感器。

2009年,微软与PrimeSense合作,发布了采用结构光技术的的体感设备Kinect v1,当时在市场引起了不小的轰动。

Kinect v1图片如下,从左至右分别为红外投影机、可见光摄像机、红外摄像机。

图片

Kinect v1的发射端采用伪随机红外散斑,在2m内的距离内,X\Y方向分辨率是3mm,深度分辨率是1cm。

图片

  1. 苹果

2013年11月,苹果以3.6亿美元收购PrimeSense。

2017年,苹果发布iPhone X,首次搭载3D结构光模组(单目),可实现3D人脸识别技术。此前,由于半导体工艺等多方面的技术限制,3D感测模组很难应用到体积小、功耗低的手机上,因此iPhone X的发布是3D结构光技术的一次重大突破。

图片

iPhone X搭载的3D结构光模组可以看做是缩小版但更强大的Kinect v1,通过发射3万多个红外光斑,实现高精度的深度信息检测。

图片

  1. 奥比中光

奥比中光的单目结构光有Astra Mini Pro、Astra 2、K2-L、C1-A、U3、Pictor、Petrel、Deeyea等产品。

图片

2)双目结构光

  • 英特尔:RealSense

英特尔的RealSence D4××系列是双目结构光深度相机,下图是红外投射的散点示意图:

图片

英特尔RealSense深度相机系列:

图片

图片来源:https://www.intelrealsense.com/compare-depth-cameras/

英特尔RealSense D435i双目结构光深度相机:

图片

图片

英特尔RealSense D455F双目结构光深度相机:

图片

图片

D457的2D深度/红外/RGB视图:

图片

D457的3D点云视图:

图片

  1. 奥比中光:Gemini系列

奥比中光的双目结构光是Gemini300系列(335、336、335L、336L、335Lg)和Gemini 2系列(L、XL)等。

Gemini330系列3D相机主要包含两个红外成像模组、一个发射红外散斑的激光投射模组(LDM)、一个彩色成像模组(RGB Module)、一颗深度引擎处理器(这里指MX6800)、一个图像信号处理器(ISP)和一颗惯性测量单元(IMU)。激光投射模组用于向目标场景中投射红外散斑图案,左右红外成像模组分别从不同视角采集目标场景的两张红外图像。深度引擎处理器接收这两张红外图像后执行先进深度生成算法,并输出目标场景的深度图像。

图片

Gemini 330系列产品:

图片

图片来源:Orbbec Gemini 330系列产品规格书

图片

Gemini335L结构:

图片

图片

Gemini335Lg的检测效果:

图片

图片来源:https://www.bilibili.com/video/BV11yC1YQEZk

户外阳光效果-Gemini 335/336

图片

图片


户外阳光效果-Gemini 335L/336L

图片

图片


室内效果-Gemini 335/336

图片

图片


室内效果-Gemini 335L/336L

图片

图片

在2m范围内,识别小方块(右侧最小方块尺寸为3cm x 3cm):

图片

Gemini 2 XL的检测效果:

图片


04

ToF深度相机

1. 原理

ToF(Time of Flight)深度相机是通过测量光飞行时间来计算深度信息。

ToF深度相机使用调制的红外光源,主动向目标物体发射光线脉冲或者连续波,接收器接受返回的光信号,通过测量发射光和反射光之间的飞行时间或相位差,计算目标物体的深度信息。

图片

图片来源:https://www.cnblogs.com/AdaminXie/p/15710993.html

ToF深度相机分为iToF(indirect ToF)dToF(direct ToF)

  • dToF:直接测量飞行时间,即直接测量光脉冲发射与接收的时间间隔。与iToF相比,dToF在远距离及抗干扰方面会有明显优势,但其工艺复杂,集成难度较高。同时,由于通过电荷积累计算时间,对物理器件要求较高。

  • iToF:间接测量飞行时间,大部分间接测量方案都采用测相位偏移的方法,即发射正弦波/方波与接收正弦波/方波之间相位差,通过传感器在不同时间窗口采集到能量值的比例关系,解析出信号相位,间接测量发射信号和接收信号的时间差,进而得到深度。iToF方法对硬件要求相对较低。


其中,iToF又分为Pulse iToF(脉冲调制)Continuous Wave iToF(CW iToF,连续波调制),前者解析脉冲信号相位来计算深度,后者解析正弦信号相位来计算深度。

相比CW iToF连续波调试方式,Pulse iToF 解算深度更简单、计算量更低,对于平台后端处理能力要求也相应更低。然而,Pulse iToF 的精度取决于发光次数,发光次数越多,精度越高,但同时也会带来功耗的增加。即使在相同平均功耗的情况下,Pulse iToF不仅精度弱于CW iToF,而且对于背景噪声更加敏感。

如下是连续波调制和脉冲调制两种方法基本原理:

图片

与dToF相比,iToF不仅在成本方面有优势,而且其工艺和产业链也更为成熟,因此,ToF深度相机目前主要以iToF方案为主。

2. 优劣势

优点:
  1. 测量距离较远,并且测距精度不会随着测量距离的增大而降低。

  2. 不受表面和特征影响。

  3. 算法较为简单。

  4. 受环境光干扰较小。

  5. 响应速度快。


挑战:
  1. 分辨率较低。

  2. 时间测量模块对物理器件要求高,检测相位偏移的资源消耗较大。


3. 代表产品(iToF)

1)微软:Kinect v2

微软和PrimeSense合作开发的单目结构光相机Kinect V1,尽管大获成功,但该产品准确度、图像分辨率和响应速度并不理想。

微软在2009年和2010年先后收购了以色列ToF相机公司3DV Systems和3D手势识别公司Canesta,并在2013年终止了与PrimeSense的合作,自行研发了ToF深度相机:Kinect V2,并且微软自研了该相机的深度感光Sensor。

Kinect v2如下所示,从左至右分别为RGB摄像头、红外摄像机、红外投影机。

图片

图片

后来,由于缺乏爆款游戏应用、硬件亏本销售等问题的存在,2017年10月,微软停止了Kinect的生产。

2)奥比中光:Femto系列

奥比中光的Femto系列产品,是基于微软Kinect V2相关技术开发的iToF深度相机产品。

其中,Femto Bolt可以作为微软官方推荐的Azure Kinect DK替代选择。该相机采用了微软最新的iToF传感技术,拥有与微软Azure Kinect DK深度相机完全一致的工作模式和性能表现。

图片

图片来源:https://www.orbbec.com.cn/index/Product/info.html?cate=38&id=57&bd_vid=8455022068299386678


05

结语

1. 方案对比和应用

三种不同类型的方案性能对比如下:

图片

其中关键点:
  1. 双目和结构光方案都是采用三角法测距,基本原理均是采用三角几何视差,来获得目标到相机的距离信息,这种方法在近距离有着很高的精度,但是远距离精度较差。

  2. ToF方案基于飞行时间获得距离信息,因此该方案在不同距离的误差相对三角法更稳定,在中远距离有着更好的精度。

  3. 对于双目方案,算法需要很高的计算资源,如果要求分辨率越高、精度越高,则计算越复杂、实时性越差。同时,双目方案受暗光、物体纹理等影响也较大。

  4. 结构光方案可以较好降低双目方案匹配算法的复杂度,以及解决纹理问题。不过,在强光环境下,投射的结构光容易被干扰,因此,不太合适室外环境。

  5. ToF方案分辨率较低,精度较低


因此,
  • 对于自动驾驶场景,由于需要较远的检测距离,一般采用双目和ToF方案。

  • 对于机器人场景,如果需要近距离高精度检测和3D重建,并且一般工作在室内光照较稳定的环境,使用双目结构光方案更为适合。如果精度要求不高,也可以使用ToF方案。


2. 其他深度相机产品

目前市面上深度相机产品很多,本文只列举了有代表性的少数几款,更多可以参考:《3D深度相机调研【史上最全,不服来战】》(https://blog.csdn.net/qq_42759162/article/details/123519276),以及:

图片

(上述内容由于原作者整理得较早,有些新产品可能还未包含,仅供参考)


3. RGB单目深度估计

值得一提的是,通常讲的深度相机主要是本文前面所述的这几种类型,不过,单目相机通过软件的方法也可以进行一定的深度估计。

单目深度估计虽然精度通常较差,不过由于成本较低、系统结构简单,基于单目的深度估计在自动驾驶领域应用非常广泛。

单目深度估计是通过使用单个摄像头或图像,来推断场景中物体的距离和深度信息。由于有无限多个3D场景可以投影到同一2D场景,因此单目深度估计是一个不适定问题说明:不适定问题是指不是下面三个条件中任何一个满足的问题:1)解存在,2)解唯一,3)解能根据初始条件连续变化,不会发生跳变,即解稳定。

单目深度估计通过分析图像中的视觉特征和几何信息,利用机器学习和计算机视觉算法来预测场景中每个像素的深度值或与摄像机的距离。由于单个图像无法提供直接的深度信息,需要从图像中提取出隐含的深度线索。

通常使用以下方法:
  • 深度学习方法利用深度学习模型,如卷积神经网络(CNN)、循环神经网络(RNN)、卷积神经网络与循环神经网络的结合网络(CNN-RNN)或者Transformer,通过对大量带有深度标签的图像进行训练,来学习图像特征与深度之间的关系。

  • 基于几何的方法使用图像中的几何特征,如边缘、角点、纹理等,结合相机参数和图像的投影模型,通过几何推理和三角测量等技术来估计深度。


如下是论文《Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model》中采用DMD模型进行的单目深度估计的效果,可以看到有些场景已经和Ground Truth非常接近,具备相当高的精度。

图片

图片来源:Saurabh Saxena等,《Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model》



本文内容仅代表个人观点,和真实情况有可能有偏差,仅供参考。如需要相关内容更详细的技术信息,欢迎添加“雪岭飞花”微信(maxhnnl)进一步交流,感谢。


我是雪岭飞花,汽车行业24年开发经验,自动驾驶行业发展的见证者和参与者,自动驾驶感知和控制系统资深专家。

欢迎添加“雪岭飞花”微信(扫描下方二维码,或者搜索maxhnnl,感谢赐名片或者分享所在公司和专业方向)。

图片


雪岭系列各平台文章/直播视频/精品课、技术交流群等内容的索引全集(公开飞书页,实时更新)。点击或者扫描下面二维码,或者访问链接:

https://dcn7get8fskg.feishu.cn/wiki/CCMpwjC0EiBIw2kFr7uc84qHneb

图片


相机 · 目录
下一篇雪岭 · 自动驾驶(2/10):感知系统——1.8万字综述Lidar/Radar/Camera/USS方案、功能和技术趋势
继续滑动看下一个
雪岭飞花
向上滑动看下一个