3-D Mapping With an RGB-D Camera粗译

3-D Mapping With an RGB-D Camera

粗翻一遍,轻喷

Abstract摘要

本篇论文中,我们呈现了一种新型的使用RGB-D深度相机鲁棒性生成高清确度3-D地图的建图系统。我们的方法并不需要额外的传感器或者里程计。balabala……

Index Terms关键词

localization,mapping,open source ,RGB-D,SLAM

Introduction介绍

RelatedWork相关工作

Approach方法

System Architecture Overview系统架构总览

总的来说,基于图(graph-based)的SLAM系统可以分为三个模块:前端,后端,最终的图呈现。前端处理传感器数据来得到几何关系,比如,机器人和地标之间在不同的时间点的几何关系。前端部分因传感器不同而不同。传感器被用来度量其自身运动,比如,车轮编码器(wheel encoders),IMU惯性测量单元,除此之外,机器人的运动还需要通过一系列的观测(observations)来计算。根据传感器类型的不同,两次观测之间计算运动所使用的方法也不同。在使用RGB-D相机的时候,输入数据是RGB彩色图IRGB和深度图ID。我们通过从IRGB中提取高维的描述子向量d R64来确定地标,并且使用y R3来存储这些地标(我觉得意思是64维的描述子向量,最后得到三维的地标,每个地标实际上就是x,y,z三个坐标),地标的定位和观测位姿x R6有关(六个自由度?xyz加上旋转)。
为了解决之前介绍过的固有的不确定性问题(inherent uncertainty),比如说,通过传感器噪声,SLAM系统的后端构建呈现机器人与地标之间几何关系以及其不确定性的图(翻译不好)。对图结构进行优化,得到一个呈现机器人轨迹的最大可能解。已知轨迹之后,我们可以将传感器数据映射到一个共同的坐标系(common coordinate frame)上。然而,在大多数应用中,由于直接使用传感器数据会非常低效,所以需要一个特定任务的地图呈现。因此,我们基于RGB-D数据建立了3-D概率栅格地图(probabilistic occupancy map来源于百度翻译,谷歌翻译是概率入住地图……汗),可以在导航和操作任务中被高效利用。图三给出了系统介绍的示意图。以下几个部分会介绍系统的各个组成部分。

Egomotion Estimation帧间运动估计?自运动估计

我们的SLAM系统的前端使用地标位置形如Y=y1,……,yn的传感器输入来计算几何关系zij,以估计出状态xi和xj之间的运动。视觉特征可以提供一种相似性的度量,从而简化了地标之间的数据关联。在描述子空间中计算关键点描述子(di,dj)的距离得到匹配对(翻译得不好)。对于SIFT和SURF特征,推荐使用欧氏距离。不过,Arandjelovic和Zisserman提议使用Hellinger kernel(Hellinger距离,Hellinger黑林格,人名)来计算SIFT特征。他们report()了对于目标识别的巨大性能提升。我们实现了两种距离的度量并且在第IV-B节中简单讨论了一下不同的计算方法对精确性的影响。对于ORB特征,使用的是Hamming(汉明)距离。单独来讲,距离不是数据关联的标准,因为匹配描述子时计算出的距离变化会很大(vary greatly)。由于特征空间的多维性,通常来说学习一个拒绝门限的映射是不可行的(没看懂,learn a mapping for a rejection threshold)。像Lowe提出的一样,我们依靠在特征空间中最近邻和第二近邻之间的比率(ratio)(进行计算)。基于一个关键点只能与另一幅图中的一个关键点相匹配,第二个最近邻会相隔甚远的这一假设。因此,最近邻和第二近邻的距离之间的比率阈值可以被高效地用来控制假阴性和假阳性之间的比率。为了对假阳性匹配保持鲁棒性,我们在估计两帧之间的转换的时候使用RANSAC(随机取样一致)的方法,RANSAC方法已被证明对于单独的误匹配非常有效。我们很快从三个特征匹配(feature correspondences)中初始化一个转换估计。这个转换会通过计算使用基于匹配的特征之间的Mahalanobis(马氏)距离的阈值 θ 进行校正。为了提高在大量缺少深度值的情况下的鲁棒性,我们将缺少深度读入的特征列入校正过程。特别地,在有少量可能匹配或者是很多相似特征的情况下,利用可能的特征匹配显得尤为重要。因此我们将匹配限制在一个容许的比率内(?)。像Chum等人提出的一样,这对递归地通过减小有效数据确定的阈值进行重估计转换大有裨益。与对于有效估计的最小数量匹配特征的阈值相结合,这样的方法在很多场景下非常奏效。
对于更大型的人造环境,此种方法在有效性上还存在局限性,因为人造环境中通常会有很多重复的结构,比如说,同一类型的椅子,窗户,或者是重复的墙纸。通过相同实例给出的足够多的相似特征,两张图之间的特征匹配会导致对于假的转换的估计。最小数量匹配数的阈值有助于消除随机的相似性以及具有少量特征的对象的重复,但是我们的实验表明,在没有出现提到的歧义的情况下,选定一个足够高的阈值排除掉系统性误关联的做法反而降低了性能(这句场外援助)。可供选择的确认方法在III-C中介绍,是一种十分有益的扩展(这句翻得不好)。
我们在RANSAC的每一次迭代中使用了最小二乘估计的方法,以从既定的3-D点匹配中计算运动估计。考虑到测量的强各向异性的不确定性( strongly anisotropic uncertainty),转换估计可以通过最小化匹配之间的平方Mahalanobis(马氏)距离而不是平方欧氏距离得到改善。Henry等人也在他最近简称为“两帧稀疏光束平方差”的研究成果中独立地提出了同样的方法。我们在运动估计之后通过使用g2o实现了此种方法。我们优化了一个仅由两个传感器位姿和事先确定好的有效数据组成的小型图。然而,在我们的实验中,额外的优化步骤只使得整体的轨迹估计略有改善。我们也调查了全局图优化中的地标,因为它已经被其他研究者所使用(翻不出来)。跟我们的预期相反,我们的方法只能带来很小的性能改善。在地标数量远大于位姿数量的时候,优化运行的时间大幅增加。

Environment Measurement Model环境度量模型

在有效数据占高百分比的情况下,前文讨论过的帧间运动估计的方法可以被假设是成功的。然而,

你可能感兴趣的:(vSLAM,RGB-D-SLAM)