CoRBS:使用Kinect v2的SLAM综合RGB-D基准测试
Oliver Wasenmuuml;ller Marcel Meyer Didier Stricker
DFKI - 德国人工智能研究中心,Kaiserslautern, 德国,{oliver.wasenmueller, marcel.meyer, didier.stricker}@dfki.de
摘要
在科学评估中,公共数据集和基准对于进行客观评估是不可或缺的。在本文中,我们提出了一个新的综合RGB-D基准SLAM(CoRBS)。与最先进的RGB-D SLAM基准测试相比,我们提供了真实深度和颜色数据的组合以及相机的真实数据轨迹和场景的真实数据3D模型。我们的新颖的基准测试允许第一次独立评估RGB-D SLAM系统的本地化以及映射部分与实际数据。我们使用外部运动捕捉系统和通过外部3D扫描仪的场景几何获得轨迹的真实数据,每个具有亚毫米精度。通过精确校准和系统验证,我们确保了CoRBS的高质量。我们的数据集包含用Kinect v2捕获的四个不同场景的二十个图像序列。我们在全局坐标系中提供所有数据,以便能够进行直接评估,无需任何进一步的对齐或校准。
- 引言
在计算机视觉界中,公共基准具有漫长而令人信服的历史。在文献中,有几个例子存在,大大推进了最先进的技术。计算机视觉和机器人学的一个主要问题是所谓的本地化和映射(SLAM),其中的目标是同时估计摄像机轨迹和环境地图。RGB-D传感器经常在本文中使用,因为它们提供彩色和深度图像,成本低且广泛传播。最近,使用Microsoft Kinect v1开发和评估了几种算法,因为它是最常见的RGB-D器件之一,但是具有高噪声级别。随着Microsoft Kinect v2的发布,一个新的有前途的设备到来了,它声称拥有更好的质量,最有可能是许多未来研究的开发和评估的基础。
(a) Microsoft Kinect v2 (b) Ground Truth 3D Scanner
(c)地面真实运动捕捉 (d)示例性地图评估
图1,我们介绍我们的CoRBS基准测试,它使用(a)Microsoft Kinect v2,并为场景的3D几何提供基本真值(b),以及(c)相机轨迹,以便(d)评估SLAM部分的所有算法。
我们在本文中的贡献是SLAM(CoRBS)的综合RGB-D基准。相比于最先进的RGB-DSLAM基准测试,我们的CoRBS是第一个提供真实深度和颜色数据的组合以及相机的真实轨迹和场景的地面真实3D模型。因此,我们的基准测试涵盖SLAM系统的本地化和映射部分,可用于独立评估两个方面的真实数据。为了产生相机轨迹的精确真实数据,我们在相机上贴上反光标记(图1a),这些标记由一个有效的外部运动跟踪系统跟踪。采用结构化光源的精确的外部3D扫描仪获取场景几何的基本真实性。CoRBS是使用Microsoft Kinect v2作为输入设备的第一个SLAM基准测试。此外,我们在全球坐标系中提供所有数据,因此不需要进一步的对齐或校准来进行评估。CoRBS共有二十个四个不同场景的序列。它可以在Creative Commons 3.0 Attribution License下获得,网址为http://corbs.dfki.uni-kl.de
基准测试 |
设备 |
相机轨迹 |
场景几何 |
全球定位系统 |
轨迹数量 |
场景数量 |
Meister |
Kinect v1 |
无 |
真实数据 |
无 |
3 |
3 |
Sturm |
Kinect v1 |
真实数据 |
无 |
无 |
39 |
- |
Zhou |
Xtion Pro |
计算 |
计算 |
无 |
8 |
8 |
Handa |
synthetic |
合成 |
合成 |
无 |
8 |
2 |
CoRBS |
Kinect v2 |
真实数据 |
真实数据 |
有 |
20 |
4 |
表1. 相比较最先进的RGB-D基准,我们的CoRBS是唯一提供真实图像数据以及相机的真实轨迹和场景的真实3D模型。所有数据都在全局坐标系中,因此可以直接应用基准测试。
(a)人体 (b) 桌子 (c) 电柜 (d) 赛车
图2. 四个不同的场景,包含在我们的CoRBS中。 顶行显示原始彩色图像,而中间行显示由Kinect v2记录的彩色深度图像。 底行示出了相应场景的真实重建。 示例性的相机轨迹在图3中示出。
- 相关工作
在计算机视觉和机器人社区中研究并评估了具有不同捕获设备的SLAM算法数年。除了专注于标准相机的基准测试外,还有一些基准显然使用RGB-D相机,如表1所列。Meister等 [21]使用Kinect v1和场景的激光扫描发布了三个不同场景的录像。由于它们不提供关于摄像机位置的任何信息,因此该数据集只能用于评估完整的SLAM算法。
Sturm等人 [29]使用Kinect v1提供了总共39个摄像机轨迹的大型基准。他们使用外部主动运动捕捉系统非常精确地测量了相机位置,但不提供有关场景几何的任何信息。因此,它们的基准测试非常适合于对SLAM的本地化部分进行评估,但不适用于映射部分。Zhou等 [33]使用华硕Xtion Pro发布了一个具有8个场景和每个场景的一个摄像机轨迹的数据集。提供的摄像机位置使用测距算法进行估计,场景几何是其算法的输出。因此,他们的数据只是近似值,不能用作真实数据。
Handa等 [12]提出了一个合成数据的基准。他们创建了两个虚拟场景,渲染颜色和深度图像,包括沿相机轨迹的噪声模型,并导出场景几何。一般来说,此基准测试可用于单独评估SLAM的两部分。然而,得出的结论的意义是有限的,因为现实世界的数据缺失。此外,缺少全局校准,意味着摄像机轨迹和场景模型处于不同的坐标系。
(a) D5 (b) E5 (c) H4
图3.三个示例性相机轨迹,显示CoRBS中包含的轨迹的多样性。
总而言之,所有现有的基准都有具体的缺陷。合成或计算的数据只是有限的意义,因为对现实世界的结论是困难的。没有一个基准测试可以用于全面评估SLAM算法,因为它们为摄像机轨迹或场景几何提供了基本的真实性,但是对于两者都没有。因此,最近出版的RGB-D SLAM在评估和比较结果方面争议较大,特别是映射部分。
名称 |
持续时间(秒) |
长度(米) |
平均值(米/秒) |
Avg.Rot.Avg.Rot. [deg/s] |
人类 |
||||
H1 |
51.1 |
11.3 |
0.222 |
19.02 |
H2 |
86.8 |
15.4 |
0.177 |
23.15 |
H3 |
42.9 |
13.5 |
0.315 |
29.81 |
H4 |
239.2 |
59.3 |
0.247 |
22.97 |
H5 |
60.5 |
26.0 |
0.429 |
39.42 |
书桌 |
||||
D1 |
23.4 |
5.4 |
0.231 |
34.08 |
D2 |
81.3 |
11.5 |
0.141 |
23.96 |
D3 |
59.8 |
23.3 |
0.390 |
56.52 |
D4 |
65.7 |
13.3 |
0.202 |
21.88 |
D5 |
39.2 |
16.4 |
0.419 |
33.73 |
电柜 |
||||
E1 |
27.0 |
11.3 |
0.420 |
38.60 |
E2 |
66.7 |
23.0 |
0.344 |
26.33 |
E3 |
165.3 |
47.0 |
0.284 |
27.92 |
E4 |
43.6 |
7.7 |
0.178 |
21.40 |
E5 |
76.3 |
12.9 |
0.169 |
22.13 |
赛车 |
||||
R1 |
93.4 |
21.0 |
0.225 |
25.83 |
R2 |
127.6 |
34.1 |
0.267 |
31.10 |
R3 |
85.0 |
20.2 |
0.238 |
16.93 |
R4 |
37.1 剩余内容已隐藏,支付完成后下载完整资料
资料编号:[141322],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。