从单目相机确定形状和运动:使用正常流量的直接方法外文翻译资料

 2022-11-04 18:44:13

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


从单目相机确定形状和运动:使用正常流量的直接方法

摘要

从视频确定移动摄像机的空间运动是计算机视觉中的一个经典问题。这个问题的难点在于,在视频中直接观察到的流模式通常不是由运动引起的完整的流动模式,而只是其被称为正常流量的部分信息。在本文中,我们提出了一种既不需要建立特征对应也不需要恢复两个图像帧之间的光流的直接方法,但是我们直接利用所有可观察的正常流数据来恢复相机运动。我们提出了一种两阶段迭代算法,以粗略到精细的框架来搜索运动空间中的解。第一阶段涉及使用正常流量的方向部分。这些正常流数据中的每一个可以向运动方向提供约束的解空间。运动解决方案与所有可用的正常流量数据的交点可以在一定程度上减少运动模糊度。然后,我们使用旋转幅度的全局性对所有图像位置进一步约束运动参数。一旦确定相机运动,就可以恢复成像场景的深度图(直到任意尺度)。提供了合成数据和真实图像的实验结果,以揭示所提方法的性能。

关键词:相机运动;直接法;正常流量;光流。

介绍

在静态场景中移动的相机通常在获取的视频中引起一定的明显的流动模式。从视频中显示位置,移动方向和其他动态信息的能力对于诸如自主导航,视觉控制,人为操纵等更高级别的任务至关重要。由于运动速度与物体尺寸和深度之间的众所周知的不确定性,从单眼视频来看,运动的平移大小通常是不可确定的,并且作为与物体深度相关的整体任意尺度。其他运动参数是可以确定的。换句话说,如果我们将空间运动描述为由平移分量t(3矢量,其方向和幅度分别代表空间中的平移的方向和幅度)和旋转分量w(也是3 -vector,它代表了以角轴为单位的空间旋转),我们的任务是确定t和w的方向。

确定运动参数的通常方法基于建立特征对应[1,2],光学一个视频中的两个图像帧之间的流(也称为全流)[3-7]或正常流(所谓的直接方法)[8-13]。

基于函数的方法需要跟踪视频中不一定可用的不同特征。重复模式的存在可能导致建立正确对应关系的模糊性。另一方面,在任何图像位置处由空间运动引起的光流通常仅部分地观察到。称为正常流量的表观流量是沿着或与局部强度梯度方向相反的全流量的分量。流动的部分可观察性是使运动确定成为挑战。光流的恢复通常需要分段平滑流动。然而,这种假设在深度不连续性附近是无效的。最先进的方法(如[14-17])通过最小化能量功能来恢复光流。无法获得准确的光流场,除非在数据项和正则化项之间存在良好的折中。通常需要从纹理化图像区域到均匀图像区域的光学流的插值。然而,最小化过程在计算上是昂贵的,并且通常需要使用图形处理单元(GPU)或多核心中央处理单元(CPU)以实现实时性能。例如,最近的一项工作是使用7分钟来计算在相当高性能的笔记本电脑上具有分辨率640 480的图像对的光流[17]。反之,直接方法从空间 - 时间强度梯度直接测量的正常流量确定运动参数[18]。 与基于特征对应和光流的方法相比,它们的计算资源要求相对较少。 此外,正常流量也可以通过定制的视觉传感器直接测量[19]。 由于上述优点,我们调查了使用正常流量来确定运动参数。

在图1,我们使用具有已知摄像机运动的不同的正常流程,在喷泉序列[7]中显示一帧的恢复深度图。我们首先沿着局部强度梯度投影地面实际光流,形成正常流。图。图1c示出了光流场和正常流场的一些部分。应该注意的是,在图像空间的某些部分没有正常的流动存在,因为空间 - 时间强度梯度在那里非常弱。图。 1d显示了与地面真相非常接近的深度图。图。图1e示出了使用从空间 - 时间强度梯度计算的正态流的恢复深度图,而没有关于全流的先验知识。我们还可以观察到,在与相机远的场景的区域对应的图像位置处,深度图中的误差相对较大。上述两个正常流量之间的唯一差异是时间强度梯度的差异来源。由于正常流动的方向部分主要取决于空间强度梯度,我们可以得出结论,大多数正常流量提取误差确实来自幅度部分。这也可以从图像序列的空间分辨率通常高于其时间分辨率的事实来解释。这为我们提供了推迟使用正常流量幅度分量的见解可以提高确定空间运动的准确性。

在本文中,我们提供了确定视频中相机运动的直接方法。我们以前的工作已经发表了一些初步结果。我们的贡献是三重的。首先,我们分别利用正常流量的方向和幅度分量来确定相机运动。这使得运动估计对噪声更加鲁棒。第二,两个组件的分离促进了两个限制的发展。一个与正常流量的方向分量(即视觉流动方向(AFD)约束相关,另一个与所有图像位置处的旋转运动幅度的全局性(即视在流动幅度(AFM)有关。AFD约束表现为线性不等式的系统,其仅使用流场的方向分量来结合运动参数。 AFM约束通过坚持每个图像位置必须具有与空间运动的相同旋转幅度一致的正常流量大小的分量进一步减少运动模糊度。第三,通过利用粗略到精细框架的两阶段迭代投票过程中的两个约束,使运动估计过程更具有计算效率。

相关工作

2.1光流

从Horn和Shunck [21]和Lucas和Kanade [22]的开创性作品开始,已经提出了许多解决方案来处理以前的模型的缺点。全球方法,如来自Horn和Shunck [21]的工作产生了具有全密度的光学流动,但是在实验中已知对噪声更敏感。本地方法,如卢卡斯和卡纳德[22]的工作在噪声方面相对较强,但并不给出密集的流场。 Bruhn等人结合本地和全球的方法,在两种方法之间作出妥协[23]。 Weickert和Schnouml;rr[24]将空间流动驱动力平滑度扩展到时空流动驱动调节,用于计算分段平滑光流。 Brox等人提出了一种多尺度方法,并包括梯度常数假设,以克服灰度值常数假设的缺点[25]。除了梯度常​​数外,Papenberg等将高阶常数假设纳入变分模型[14]。 Zimmer等人将数据和平滑度互补的概念引入现代变分法[15]。孙等人包括非本地术语来提高估计性能[16]。 Lei和Yang提出了一种基于区域的方法来估计光流的离散优化[26]。 Van Dorst等人提出在软约束条件下使用多尺度锚点[27]。徐等开发了一种在流场中保留细微运动细节的方法[17]。

一旦光流已被恢复,运动参数就在后续阶段确定。 Bruss和Horn通过使用二次欧几里德度量[28]开发了双线性约束来估计摄像机运动。 Heeger和Jepson提出了两步法来恢复摄像机运动[3]。剩余函数的非线性最小化给出了翻译方向的估计。在后续阶段恢复旋转。 Fejes和Davis表明,通过假设相机具有较小的视野(FoV)[4],发散性能可以与线性特性一起使用。 Lourakis利用一些约束线来估计扩张的重点(FoE)[5]。该方法依赖于一对光流向量位于通过FoE的任何线上,表现出特定的几何特性。 Lourakis还开发了一种封闭形式的解决方案,通过使用四个共线图像点[6]定义的线性约束来定位FoE。 Raudies和Neumann通过引入辅助变量提出了双线性约束的无偏的线性公式[7]。

2.2 直接法

直接方法恢复一般运动是由Aloi-monos和Brown在纯旋转的情况下开创的[29],并进一步发展为Horn和Weldon的纯翻译[30]。 Negahdaripour和Horn通过假设一个平面场景恢复了一般的摄像机运动[31]。 喇叭和韦尔顿恢复了具有纯平移,纯旋转或具有已知旋转的一般运动的相机运动[18],而Sinclair等人 研究了Horn和Weldon的工作稳健性[32]。 Aloimonos和Duric提出了一种采用有限旋转幅度进行一般运动的观察者恢复焦距(FoE)的方法[33,8]。 在分析中,他们假设观察者只进行向前运动。

Fermuuml;ller和Aloimonos从一些特殊的图像点构建了几种全局图像[9,10]。 以这种方式,运动参数估计被转换成一系列边界提取问题。 Brodskyacute;et al。 对表观流变模糊的条件进行了详细分析[34]。 Fermuuml;ller和Aloimonos通过研究与2D刚性位移场相关的几个功能进一步研究了全局结构[35]。 他们还提出了运动形状的稳定性分析[36,11]。

Silva和Santos-Victor在图像空间中利用了几条线和曲线搜索算法来恢复空间运动[37,12,38]。然而,只有非常有限数量的正常流量数据被用于恢复空间运动,因为搜索线和曲线被限制在通过图像原点的那些。后来,他们在不同的空间(线拓扑空间)上制定了搜索问题[13]。更正常的流量可以有助于解决问题,从而提高鲁棒性和可靠性。他们还利用对数极坐标图像来实现数据简化[38]。 Duric et al。提出了基于直方图的方法来确定像z轴旋转,z轴平移,横向平移和平移运动等特定的相机运动[39]。然而,该方法不适用于一般运动。我们最近探讨了如何通过网络中的多个摄像机组成的宽视场成像系统来近似球面眼睛,可以降低确定摄像机运动的复杂性[40,41]。当双目系统可用时,我们还为运动问题提供了一种闭式解决方案[42]。

与Aloimonos和Duric [33,8]的作品不同,我们的方法确定了相机运动,而不会对平移或旋转的大小设置任何限制。与Fermuuml;ller和Aloimonos [9,10]的作品相反,我们不需要提取图像平面中的流动图案。通常难以提取分离图像空间的两个不同标记区域的边界。这是因为不仅这些区域通常非常稀疏地标记,还存在由两个标签组成的第三区域。更重要的是,解决过程通常仅使用正常流量数据的一小部分,因此首先需要场景相当密集的纹理。虽然我们两者都利用正常流量的正深度的属性,但我们的工作利用AFD阶段的所有可观察到的正常流量数据,而不仅限于由同轴或共同点向量控制的几个正常流量子集。实际上,这些矢量的不同选择影响了确定图案边界的准确性[43]以及相机运动。

在Silva和Santos-Victor [13]的工作中,他们在线拓扑空间上重新制定了搜索问题。 通过最小化两个成本函数来估计FoE和两个旋转分量。 只能在恢复五个运动参数中的四个之后估计第三个旋转分量。 然而,他们使用无界决策变量的几个最小化问题解决了旋转参数。 我们的方法首先在有界空间中搜索运动的方向。 然后,我们使用AFD阶段的解决方案确定旋转的幅度作为AFM阶段的约束输入。 这不仅减小了AFM阶段的搜索空间的大小,而且提高了运动精度。

上述单目相机的直接方法无法解决一般的相机运动的情况,其中平移和旋转都存在和未知,或者必须处理识别仅被稀疏标记的不同图像区域之间的边界的问题,或者必须 单独确定运动参数,或涉及在最小化过程中使用无界决策变量。 在本文的其余部分,我们将介绍一种没有这种限制和困难的直接方法。

背景

考虑图像平面放置在距离其光学中心的焦距f的距离处的照相机,如图1所示。 2.定义以摄像机为中心的坐标系C:X-Y-Z,原点位于相机的光学中心,Z轴沿光轴指向。 假设相机以瞬时速度V进行一般运动。我们还在图像平面Omega;上定义图像中心坐标系O:x-y。

我们还会提出一个问题:两个不同的相机运动离子(t1,w1)和(t2,w2)是否可能导致相同的光流场。 如果存在这种情况,则可能在确定空间运动时引起歧义。 Brodskyacute;et al。 对这个问题进行了详细分析[34]。 如果手中的相机至少具有半球形图像表面,并且我们正在考虑完整的流场,则不存在运动模糊度。 如果我们限制自己仅利用流场的方向分量,当通过t1和t2的平面通过w1和w2与平面正交时,存在退化条件。 像许多其他在文学中使用相机有限的视野,我们假设这样的条件是非常罕见的发生。

明显的流动方向(AFD)约束

通常,由于众所周知的孔径问题,任何图像位置x处的光学流动x不能从图像数据中直接观察到。 只有通过正常流量名称的位置上的空间强度梯度的流量的投影分量是直接可观察的。 通过使用亮度恒定约束方程(BCCE)[21]提出的约束是强大的,但是简单的说明。 如果正常流量xn必须是全流量x的投影分量,则完整流量x必须具有与其不同的方向。

观察到的正常流量xn大于pi;= 2。 对全流动方向的这种限制x又限制运动参数eth;t;问心无愧。 注意,这样的约束存在于每个图像位置x,其中正常流量xn是可观察的(我们将以一般的独立方式参考诸如数据点的正常流量)。 换句话说,N个数据点通常表示在eth;t上的N个独立约束;问心无愧。 在具有可观测全流量x和正常流量xn的任何图像位置x处的约束可以以下列方式来表示:

x xnfrac14;eth;xnTHORN;240;eth;9THORN;

其中n是在图像位置x处的局部图像强度梯度的方向上的单位向量。

我们将其称为视在流动方向(AFD)约束。 如以下部分所示,AFD约束也可以从几何角度使用两个特殊运动情况(纯平移和纯旋转)一起推导出来。

4.1 特殊情况:纯翻译

假设我们在图像位置x处有一个完整的流程x,而没有相机运动的任何先前知识。 从前面的分析可以看出,FoE(或FoC)的轨迹位于xtfrac14;xthorn;lambda;x描述的线上。 8lambda;AR,其通过x并且平行于全流量x。 由于相机平移的表示是平移必须在t的方向上前进,所以从图像位置x延伸的半线和在流动x的相反方向上的点(图1中的粉红色虚线)。 4a)表示图像平面中FoE的轨迹(即xtfrac14;xthorn;lambda;x; 8lambda;o0)。 如果相机经历反向平移,则从图像位置x沿流动x的方向(图4b中的绿色虚线)延伸的半线表示FoC的轨迹(即,xt = xtimes;lambda;times;8times;8lambda;40)。

4.2 特殊情况:纯旋转

纯旋转的情况类似于纯翻译的情况。 假设摄像机围绕一个以W的幅度给出的幅度w旋转,并且其具有朝向场景的分量。 场景中的任何对象点X围绕-w relative旋转_到摄像机中心C.与X正交并且在X处切向的场景X的速度矢量X被定义为-w X。

4.3 解决两种特殊情况的线性不等式

在这里,我们还提供了任务的几何解释,并提供了一种在其解决方案中计算效率更高的替代解决方案机制。由(20)表示的手中的

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[140220],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。