在RGB-D图像中用深度滑动来检测三维物体外文翻译资料

 2022-11-03 20:55:13

在RGB-D图像中用深度滑动来检测三维物体

摘要:我们专注于RGB-D图像中的三维物体检测任务,其目的是在其全部范围内以度量形式产生物体的3D边界框。 我们介绍深层滑动重构,一种3D ConvNet公式,将RGB-D图像的3D体积场景作为输入,并输出3D对象边界框。 在我们的方法中,我们提出了第一个3D区域提案网络(RPN)来从几何形状学习对象,第一个联合对象识别网络(ORN)提取2D中的几何特征和颜色特征。 特别地,我们通过训练两个不同尺度的椭圆形RPN和ORN来回归3D边界框来处理各种尺寸的对象。 实验表明,我们的算法在mAP中胜过13.8的最新技术,比原来的“滑动重构”快200倍。

  1. 介绍

典型的对象检测将物体的类别与对象的可见部分的图像平面上的2D边界框一起预测。 虽然这种类型的结果对于某些任务(例如对象检索)很有用,但是对于在真实的3D世界中进行任何进一步的推理,这是相当不满意的。在本文中,我们专注于RGB-D图像中的垂直3D对象检测任务,其目的是产生一个对象的3D边界框,无论截断或闭塞,都能在对象的全部范围内给出真实世界的尺寸。这种识别是更有用的,比例在机器人应用的感知操纵循环中。 但为预测添加新的维度将大大扩大搜索空间,还会使任务更具挑战性。

可靠且经济实惠的RGB-D传感器(例如Microsoft Kinect)的到来使我们有机会重新审视这一关键任务。然而,将2D检测结果转换为3D将无法正常工作(参见表3和表10)。为了充分利用深度信息,提出了滑动重构[25],以便在3D空间中滑动3D检测窗口。虽然使用手工制作的功能受到限制,但这种方式自然地在3D中制定了任务。或者,深度RCNN [10]采用2D方法:通过将深度视为彩色图像的额外通道来检测2D图像平面中的对象,然后通过使用ICP对齐将3D模型拟合到2D检测窗口内的点。给定现有的二维和三维方法的问题,自然地问:哪个表示更好地用于3D垂直对象检测,2D或3D?目前,2D中心深度RCNN优于3D中心滑动重构。但也许深度RCNN的实力来自于使用精心设计的深层网络,预先使用ImageNet进行培训,而不是其二维表示。还可以通过3D深度学习获得优雅但更强大的3D制作?

在本文中,我们引入了深度滑动重构,一种完整的3D公式,用于使用3D卷积神经网络(ConvNets)来学习对象提议和分类器。我们提出了第一个3D区域提案网络(RPN),它将3D体积场景作为输入并输出3D对象建议(图1)。它被设计为针对不同尺寸的对象在两个不同尺度上为整个对象生成圆形建议。我们还提出了第一个联合的对象识别网络(PRN),使用2D ConvNet从颜色中提取图像特征,以及3D ConvNet从深度提取几何特征(图2)。该网络也是第一个从3D建议直接退回对象的3D边框。广泛的实验表明,我们的3D ConvNets可以比二维表示(例如深度RCNN中的HHA)学习更加强大的编码几何形状表示(表3)。我们的算法也比深度RCNN和原始的滑动重构快得多,因为它只需要在测试时间内GPU中ConvNets的单次向前传递。

我们的设计充分发挥了3D的优势。因此,我们的算法自然受益于以下五个方面:首先,我们可以预测3D边界框,而无需从额外的CAD数据拟合模型的额外步骤。这优化了管道,加快了速度,提高了性能,因为网络可以直接优化最终目标。其次,由于遮挡,视场有限,投影大尺寸变化,二维建立生成识别非常困难。但是在3D中,由于同一类别的物体通常具有相似的物理尺寸,并且遮挡物的分心落在窗外,我们的3D滑动窗口提案生成可以自然地支持椭圆检测。第三,通过在3D中表示形状,ConvNet可以有机会在更好的对齐空间中学习有意义的3D形状特征。第四,在RPN中,接受领域自然地代表了现实世界的维度,这指导了我们的建筑设计。最后,我们可以通过使用曼哈顿世界假设来定义边界框方向,来利用简单的3D上下文先验。

虽然机会令人鼓舞,但3D对象检测也有几个独特的挑战。首先,3D体积表示需要更多的内存和计算。为了解决这个问题,我们建议将3D Region Proposal Network与一个低分辨率的整个场景作为输入进行分离,而对象识别网络可以对每个对象进行高分辨率输入。第二,3D物理边界框的大小比基于2D像素的边界框变化更大(由于摄影和数据集偏差)[16]。为了解决这个问题,我们提出了一个多尺度区域提案网络,它使用不同的接受领域预测不同大小的提案。第三,尽管来自深度的几何形状非常有用,但它们的信号通常在彩色图像中的结构信号频率较低。为了解决这个问题,我们提出了一种简单而有原则的方法,通过投影3D区域提案来导出2D图像补丁中的颜色信息。

1.1相关工作

深层ConvNets彻底改变了基于2D图像的物体检测。RCNN[8],Fast RCNN [7]和Faster RCNN [18]是最成功的最先进的三次迭代。除了仅预测一个对象的可见部分,[14]进一步扩展RCNN从而估计整个对象的amodal框。但是它们的结果是2D,只有对象的高度才能被估计,而我们希望在3D中有一个amodal框。受2D的成功启发,本文提出了一种集成的3D检测流水线,用于3D-3D图像的3D ConvNets利用3D几何线索。

RGB-D图像中的2D对象检测器 RGB-D图像的2D对象检测方法使用手工特征[9],稀疏编码[2,3]或递归神经网络将深度作为附加到彩色图像的额外信道[23]。深度RCNN [11,10]是在RGB-D图像上使用深度ConvNets的第一个对象检测器。它们通过将深度图编码为附加到彩色图像的三个额外通道(与地心编码:差异,高度和角度)来扩展用于基于颜色的对象检测的RCNN框架[8]。[10]通过将3D CAD模型对准识别结果,扩展深度RCNN以产生3D边界框。[12]通过交叉模式监督转移进一步改善了结果。对于3D CAD模型分类,[26]和[20]采用基于视图的深度学习方法,将3D形状渲染为2D图像。

3D对象检测器 滑动重构[25]是3D对象检测器,可以在3D中运行滑动窗口,以直接对每个3D窗口进行分类。然而,该算法使用手工制作的特征,并且该算法使用许多示例性分类器,因此它非常慢。 最近,[32]还提出了RGB-D图像上的面向云梯度的特征。在本文中,我们希望通过3D ConvNets改进这些手工制作的特征表征,可以从数据中学习强大的3D和颜色特征。

3D特征学习 HMP3D[15]从RGB-D图像和3D点云数据引入了用于无监督学习特征的分层稀疏编码技术。该功能在合成CAD数据集上进行了培训,并对RGB-D视频中的场景标记任务进行了测试。 相比之下,我们希望采用受监督的方式来学习使用深入学习技术的3D功能,这些技术被证明对基于图像的功能学习更有效。

3D深度学习 3D ShapeNets[29]引入3D深度学习来建模3D形状,并展示了可以从大量3D数据中学习强大的3D功能。 最近的几项作品[17,5,31,13]也提取了CAD模型检索和分类的深度学习特征。 虽然这些作品是鼓舞人心的,但他们都不关注RGB-D图像中的3D物体检测。

区域提案 对于2D对象提议,以前的方法[27,1,11]主要基于合并分段结果。 最近,更快的RCNN [18]引入了一个更有效和更有效的基于ConvNet的公式,这激发了我们使用ConvNets来学习3D对象。对于3D对象建议,[4]在街景场景中介绍了几个对象类别的手工制作功能的MRF配方。我们希望使用ConvNets从数据中学习一般场景的3D对象

  1. 编码3D表示

我们需要为3D深度学习回答的第一个问题是:如何将3D空间编码到ConvNets中?对于彩色图像,自然输入是像素颜色的2D阵列。 对于深度图,深度RCNN [10,11]提出将深度编码为具有三个通道的2D彩色图像。 虽然它具有重用预先训练的彩色图像ConvNets [12]的优点,但我们希望以3D形式自然地对几何形状进行编码,从而保持空间局部性。 此外,与使用手工制作的3D特征的方法[5,31]相比,我们希望将3D几何编码为尽可能原始的表示,并让ConvNets从原始数据中学习最具有歧视性的特征。

为了对用于识别的3D空间进行编码,我们提出采用定向截断签名距离函数(TSDF)。给定一个3D空间,我们将其划分成一个等距离的3D体素网格。每个体素中的值被定义为距离输入深度图的体素中心和表面之间的最短距离。图3显示了几个例子。为了对表面点的方向进行编码,而不是单个距离值,我们提出了一种方向性TSDF,用于将三维向量[dx,dy,dz]存储在每个体素中,以将三个方向上的距离记录到最接近的表面点 该值被2delta;削减,其中delta;是每个维度中的网格大小。 值的符号表示单元格是否在表面的前面或后面。

为了进一步加速TSDF计算,作为近似,我们还可以使用投影TSDF而不是精确的TSDF,其中最近的点仅在相机的视线上发现。 投影TSDF计算速度更快,但与经验识别的精确TSDF相比,性能上的经验更差(见表2)。 我们还尝试其他编码,我们发现所提出的定向TSDF优于所有其他替代方案(见表2)。 请注意,我们还可以通过将RGB值附加到每个体素来对这个3D体积表示中的颜色进行编码[28]

  1. 多尺度3D区域提案网络

区域提案生成是对象检测流水线的关键步骤[8,7,18]。而不是在原始滑动重构中进行详尽的搜索,我们希望3D中的区域提案方法提供一小组对象不可知的候选,并加快计算,同时仍然利用3D信息。但3D中有几个独特的挑战。首先,由于额外的维度,对象的可能位置增加了30倍。这使得区域提案步骤更加重要和具有挑战性,因为它需要更具选择性。其次,我们对amodal检测感兴趣,目的在于全面估计完整的3D框。因此,算法需要推断超出可见部分的全部框。第三,不同的对象类别在3D中具有非常不同的对象大小。在2D中,由于摄影偏倚,图片通常仅关注感兴趣的对象。因此,对象边界框的像素区域都在非常有限的范围内[18,16]。例如,床和椅子的像素区域可以是相似的图像,而它们的3D物理尺寸是非常不同的

为了解决这些挑战,我们提出了一个多尺度的3D区域提案网络(RPN)来学习使用反向传播的3D对象(图1)。 我们的RPN将3D场景作为输入并输出一组具有对象分数的3D边界对象边界框。 该网络被设计为充分利用来自3D物理世界的信息,例如物体大小,接收场的物理尺寸和房间定向。 而不是只能识别可见部分的自下而上的基于分段的方法(例如[27]),我们的RPN以类似于滑动窗口的风格来查看整个对象的所有位置,以生成空间对象提议。 为了处理不同的物体大小,我们的RPN目标在两个尺度上具有两种不同尺寸的接收场。

范围和分辨率 对于任何给定的3D场景,我们旋转它与重力方向对齐作为我们的相机坐标系。 根据规格。 对于大多数RGB-D摄像机,我们的目标水平在垂直[1]米,[0.4,5.6]米深的3D空间的有效范围。 在这个范围内,我们用格子大小为0.025米的体积TSDF对3D场景进行了编码,从而产生了208⇥208⇥100的体积,作为3D RPN的输入

定向 我们希望提供一小组建议来覆盖所有不同宽高比的物体。因此,作为启发式,我们建议使用房间的主要方向来指导所有提案。在曼哈顿世界的假设下,我们使用RANSAC平面拟合来获得房间方向。这种方法可以为大多数对象类别提供非常准确的边框方向。对于不遵循房间方向(如椅子)的物体,它们的水平长宽比往往是一个平方,因此在交叉联合方面的方向并不重要。

锚点 对于每个滑动窗口(即卷积)位置,算法将预测N个区域提案。每个提案对应于N个锚盒中的一个。在我们的情况下,根据对象大小的统计,我们定义了一组N = 19个锚点,如图4所示。对于具有非正方形水平纵横比的锚点,我们定义了另一个具有相同大小但旋转90度的锚。

多尺度RPN 锚箱的物理尺寸从0.3米(例如垃圾桶)到2米(例如床)变化很大。如果我们使用单一的RPN,网络将不得不使用相同的接收域来预测所有的框。这意味着有效的特征图将包含许多小对象提议的分心。为了解决这个问题,我们提出了一个多尺度的RPN,以小尺度和大规模的方式输出建议书,大的有一个集合层,以增加更大对象的接受度。我们根据其物理尺寸将锚点列表分为两个级别,并使用不同的网络分支来预测它们。

全3D卷积架构 为了实现3D滑动窗口样式搜索,我们选择一个完全的3D卷积架构。 图1显示了我们的网络架构。 用于预测物体评分和边界框回归的最后卷积层的步幅为1,在3D中为0.1米。 1级的过滤器尺寸为2⇥2⇥2,2级为5⇥5⇥5,对应于每0.4m3接收区域对应1级锚和每1m3对应2级锚。

空盒拆卸 根据范围,分辨率和网络架构,任何图像的锚点总数为1,387,646(19⇥53⇥53⇥26)。平均而言,92.2%的这些锚盒是空的,点密度小于每立方厘米0.005点。 为了避免误差,我们在训练和测试期间自动删除这些锚。

训练抽样 对于其余的锚点,如果他们的3D IOU得分与地面真值大于0.35,我们将其标记为正,如果他们的IOU小于0.15,则它们为负。在我们的实现中,每个小批量包含两个图像。 我们随机抽取每个图像256个锚点,正负比为1:1。 如果少于128个阳性样本,我们将使用相同图像的负样本填充小批量。我们通过指定最终卷积层中每个锚点的权重来选择它们。我们也试图用正确的权重来使用所有的积极和否定,但训练不能融合。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140846],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。