摘要:我们解决了使用结构特定的局部描述符来估计两个模型之间的对准姿态的问题。我们的描述符是使用2D图像数据和3D上下文形状数据的组合生成的,产生了一组半局部描述符,包含边缘和纹理结构的丰富外观和形状信息。这是通过定义描述描述符邻域的特征空间关系来实现的。通过定量评估,我们表明,与最先进的方法相比,我们的描述符提供了很高的鉴别能力。此外,我们展示了如何利用它来估计两个点集之间的对齐姿态。为了验证我们的方法,我们在受控场景和真实场景中进行了实验。
在计算机视觉领域中,确定两个模型表面之间的对准变换问题已经有了广泛的研究。在机器人操作应用中,将对象模型实例化到场景中对于进一步处理任务的成功至关重要。一个相关的应用是物体的抓取和操纵,这需要视觉系统具有很高的精确度。这个过程的准确性对于更高级别的操作(如放置或装配)任务也是至关重要的。
在配准或拼接问题中,使用同一对象或场景模型的多个视图来构建更完整的场景,需要视图之间非常精确的对齐,以便结果可用。同样的方法可以应用于多摄像机设置中外部摄像机参数的估计。
用于解决这些问题的方法已经应用于带有颜色信息的2D图像域以及深度图像或RGB-D数据的3D数据中。对于这些领域,通常采用特征驱动的方法,该方法基于试图去除两个模型之间的虚假特征对应,从而有可能使用剩余的真实点到点对应来计算对准变换。广泛接受的是,局部描述符在这个过程中提供了最高的稳定性,因为它们对杂乱和遮挡具有耐受性[1]
对于图像数据,通常会检测兴趣点或关键点,然后使用局部邻域的外观与上下文图像信息进行增强,从而生成最终的图像描述符[2]-[6]。关键点检测是为了定位不同的兴趣点,从而使得提取过程近似视点不变。通过围绕关键点建立外观描述来确保辨别能力。基于关键点的模型描述往往非常稀疏,因为密度越高,单个特征描述符的独特性就越低。
对于3D数据或点云,在过去几十年中已经开发了各种形状描述符[7]–[12]。这些通常是为完整的数据集构建的,即在模型上的每一点,尽管存在特征选择方法[13],[14]。对于形状描述符,几何不变量如相对距离或角度可以用来描述一个点的局部邻域。因为形状描述符通常是为所有点创建的,所以这些表示是密集的。
在本文中,我们介绍了一种新的包含RGB数据的3D模型描述符变体。我们的特征处理的输入可以是密集的立体重建或RGB-D图像(见图1),提供外观和形状数据。我们的目标是以有效的方式组合来自外观和形状域的输入。这将在第3节中详细介绍
图1 姿态估计系统处理流程图。左:输入RGB-D图像。顶部中间:通过单基因过滤分离外观信息的同一性,产生局部大小、方向和相位为三倍的图像。底部中间:ECV原始提取和他们的3D重建对应物。线段用蓝色标记,纹理用绿色标记。使用该数据,生成ECV上下文描述符。右上角:存储的对象模型和输入场景之间的ECV上下。
关键点检测是通过使用早期认知视觉(ECV)系统将单个像素分类为不同类别来实现的。ECV表示的密度介于稀疏图像关键点描述符和密集3D形状描述符之间。这样做的好处是可以更详细地捕捉模型形状,同时保持高水平的辨别能力。为了进一步增加后者,我们在ECV模型的基础上定义了上下文描述符。正如将在下面的部分中展示的,所有这些结合在一起,允许在精确度和速度方面进行有效的姿态估计。
早期的工作已经将ECV特征应用于一系列计算机视觉应用。为了精确地表示场景,文献[15]提出了一种实时提取ECV纹理图元的方法,为每个图元提供不确定性信息。在文献[16]中,自我运动估计是目标,并且ECV边缘结构用于表示观察场景中的边缘信息。在文献[17]中,ECV基元被嵌入到一个概率框架中,该框架允许使用生成模型进行对象识别。最近,ECV特征已经被应用于抓取未知物体的任务中[18],其中基于边缘和纹理信息的场景表示被用于直接产生稳定的抓取。
本文的贡献是一个模型描述,包含外观和形状信息及其对不同姿态估计任务的适用性,如第4节中描述的对象实例化、场景配准和摄像机校准。我们提出了一个图像处理管道,它在边缘和纹理域生成特征。利用外观和形状信息的互补能力,构建了一种新型具有高分辨力的局部3D描述符。我们在速度优化的RANSAC [19]程序中使用我们的描述符,这表明了我们系统的实际可用性。从三个方面论证了表示的效率:
(1) 使用外观和形状来描述一个点,
(2) 关键点被分类为边缘/纹理类型,提供了一个依赖于结构的描述符,
(3) 关键点密度高,允许比许多其他图像描述符更多的形状信息。
在受控实验装置和真实场景中对我们的系统进行验证,与最先进的方法进行了比较,表明我们的表示法比其他表示法能更有效地处理一系列估计问题。通过展示1)描述符在大的视点变化下提供了大量的真实对应,2)如何有效地解决具有大的观察差异的两个模型之间的姿态估计问题来支持这一主张。
这里展示的作品建立在ECV模型中包含的观察空间之上。我们首先简要描述ECV特征提取过程,然后介绍我们的上下文描述符。
A.ECV基本框架
由ECV过程产生的原子特征被称为基元。通过单基因信号的旋转不变滤波方法从图像中提取ECV基元[20],并随后在3D数据中重建。单基因信号滤波基于局部邻域出现的频谱,在每个像素位置提取局部幅度、方向和相位的三元组,这种维度的扩展被称为同一性的分裂。
使用六边形网格对多点触控图像进行细分,关键点被定位为每个网格单元中具有最大幅度响应的像素。图像的拖尾分裂引出内在维度的概念[21]。单元中光谱方差的测量给出了关于局部图像结构的维数的信息。幅度的微小变化表示均匀的斑块,而方向的微小变化表示边缘或线状结构。纹理区域的特点是大小和方向变化很大。通过对一个单元中的标识值进行适当的阈值化,该单元可以被分类为属于同质块、边缘或纹理区域[22]。给出了关于图像不同部分代表什么感测模态的低级但有价值的信息。由于属于同质斑块的像素本质上是模糊的,因此在这项工作中只使用了边缘区域和纹理区域。图2展示出了示例对象的提取的边缘/纹理图元的可视化。我们称边缘图元为线段,或简称为线段(蓝色),纹理表面图元为纹理元素(绿色)。在该图和图1中,直接使用来自对准的深度传感器的形状数据完成3D重建过程。从RGB-D数据中提取3D ECV图元已经在GPU上实现,允许实时操作[15]。
图2 不同ECV特征的可视化。左:输入RGB-D模型。中间:蓝色的ECV部分。右图:绿色ECV纹理。每个ECV图元包括一个几何图形和一个外观组件。此时,几何部分由3D位置和方向组成。对于线段,方向定义为沿边缘的方向向量,对于纹理子,方向定义为局部表面区域的法向向量。
为了增加ECV特征的辨别能力,我们生成一个基于外观和几何的图形特征的空间邻域描述符。在每个特征位置,计算半径为r的欧几里德邻域内ECV模型上所有特征点对之间的关系,并将结果保存为直方图。
使用一般术语“方向向量”,因为这可以是表面法线(纹理子)或方向(线段)。在图3中,这些几何关系被可视化为一对纹理子。一个重要的细节是任意两点的排序,几何关系
是不对称的,因为它们的符号是根据哪个特征点被认为是第一( p1 )和第二( p2 )而变化。我们通过选择
作为最接近我们正在为其计算上下文描述符的源特征的点来解决这个问题。
图3特征点之间使用的三种几何关系。在这种情况下是具有相关法向量的纹理子。不使用角度值,使用余弦值来节省计算时间。
对于外观部分,为所有三个RGB颜色通道创建单独的直方图。对于几何关系,取区域内所有可能的点对,计算出三个强度梯度。对于三个颜色通道,将这些外观关系表示为 R A 1 、 R A 2 、 R A 3 R_{A1}、R_{A2}、R_{A3} RA1、RA2、RA3 。同样,根据到源点的距离成对排序点。总之,这给出了六个独立的直方图,三个基于几何 RG 和三个基于外观的 RA, 它们都集合在最终的描述符向量中。每个直方图由16个面元组成,总描述符维数为96。在本文的其余部分,使用 r = 0.025 m r=0.025 m r=0.025m ,我们发现这是局部性和鉴别能力之间的合理折衷。
与许多其他关于3D形状描述的工作相比,我们的上下文描述符公式只对ECV特征点(线段和纹理子)起作用,而不对底层的点云起作用。这有两个优点:1) 邻域中的点数减少,从而导致计算速度加快;2)通过使用被分类为线/纹理结构的点,避免使用均匀的表面点,这不会增加辨别能力。我们有意地保持上下文描述符的相对简单,这既是为了加快过程,也是为了显示ECV特征对于可靠的上下文描述的潜力。显然,这可以通过系统评估用于描述特征上下文的替代操作符来进一步改进。典型Kinect场景的完整ECV上下文表示的提取大约需要1秒钟,目前正致力于将实现移植到GPU进行实时提取。
我们提出了三种不同的实验验证我们的方法。在4.1部分,我们提出了一个系统的评估方法来确定两个模型之间真实特征对应的数量。在4.2部分,我们将我们的估计过程应用于配准场景的两个视图的问题。在4.3部分给出实验结果。
有效的姿态估计的一个关键要素是在要对准的模型之间建立对应关系。在这个初始实验中,我们概述了一个测试两个模型之间对应关系的算法。一般来说,我们不能先验地确定两点是否对应,这是评估过程的目标。在文献[27]中,如果最近的和第二最近的特征匹配距离之间的比率低,则在估计期间建立对应关系。这确保了对应关系的唯一性,但只是增加了对应关系为真的概率。
在这里,我们颠倒这个过程:我们从执行两个模型的对齐开始,然后我们检查最初计算的特征对应关系中的哪一个是正确的,简单地通过阈值化在初始对应关系计算阶段匹配的点对之间的欧几里德距离。这受到点云库(PCL)中实施的通信拒绝的启发[28]。更具体地说,我们执行以下操作:
如果模型足够接近,可以在第2 步使用局部方法,如迭代最近点法[29],[30]。否则,可以基于步骤(1)中生成的对应关系,应用稳健的估计方法,如RANSAC。步骤(3)中的欧几里德阈值应该被设置为至少对准的预期平均精度,以便补偿估计的不准确性。
在图4中,我们显示了同一对象的两个视图之间基于对齐的对应拒绝的整个过程。上图用白线显示了初始假设集的子集,下图用白线显示了剩余对应关系的子集,以及用红色覆盖对齐模型的ICP结果。
图4 顶部:两个对象模型之间的ECV上下文描述符对应。底部:在ICP对准(对准最左边的模型用红色覆盖)和欧几里德距离阈值化之后,两个对象模型之间的过滤的对应关系。出于显示目的,两种情况下仅显示25个随机选择的对应关系。
该图以及图1和图2中的对象取自包含大量对象模型以及一些示例场景的Kinect视图的RGB-D数据库[31]。数据库中的所有对象都是在一个转盘上捕获的,帧之间只有几度的位移,并且来自三个不同的高度,每个对象有几百个视图。这里我们使用了框架1和15,它们被移动了大约30度。
我们对从RGB-D数据库中随机选择的一组对象执行了此过程,所有这些对象都使用由15帧分隔的两个视图。对于每个对象,我们使用0.01 m的欧几里得阈值来计算对应分数。我们将ECV特征描述符与图像域(SIFT [2]和SURF [6])以及3D形状域(Spin Image[7]和FPFH [10])中的现有描述符进行比较。对于SIFT/SURF,使用标准设置的OpenCV。SURF需要用户指定的Hessian阈值来进行关键点检测,将其设置为500。对于形状描述符,半径设置为 r=0.025m 用PCL实现。图5中报告了计算的对应分数,所有分数的平均值显示在最右侧。
图5 对于十个典型对象,使用五个不同的描述符(包括我们自己的描述符)的真实对应的分数。图表最右边的部分显示了所有测试用例的平均值。
图5中的结果并不令人惊讶。事实上,像“香蕉”和“海绵”这样的形状主导的物体最好用形状描述符来描述。另一方面,纹理对象,如“粘合剂”和“谷物”,最好由基于外观的图像描述符捕捉。在一个例子中,“海绵”,FPFH形状描述符提供了比我们提出的描述符稍好的辨别能力,这是预期的,因为该对象的外观部分非常模糊。对于对象“帽”和“订书机”,SIFT产生了更好的效果。然而,在后一种情况下,SIFT描述符仅在八个检测到的关键点上计算,使得对象模型极其稀疏。相比之下,ECV处理为这个对象产生113个关键点。从这项研究中得出结论,我们的描述符总体上优于其他描述符,这意味着在一系列具有不同形状和外观的对象上的平均表现。总集的平均对应分数为27 %,而第二好的SURF的平均分数为15 %。
使用鲁棒的2D描述符[32],[33]已经成功地实现了用于配准或拼接场景的多个图像的算法。多个3D模型的配准也有其实际用途,例如用于从多个视图构建模型。另一个应用是多摄像机设置的校准,其中为了估计相对摄像机姿态,必须记录场景的多个视图。
如果场景中有足够的形状信息,则无需使用标记就可以非常精确地确定相对相机变换。在图6中,我们展示了将我们改进的RANSAC应用于具有宽基线间隔的场景的两个视图的结果。对于这类任务,由于有限的重叠,我们降低了所需的内点数量。在这个实验中,我们将最左边场景中的内侧分数设置为点数的10 %。
图6 使用优化的RANSAC算法注册同一场景的两个不同视图。顶部:输入Kinect视图,显示使用ECV上下文描述符计算的25个随机选择的对应关系。左下方:配准结果,顶部图像中最左侧场景视图的对齐版本用红色覆盖。右下角:对齐点集的缩放。请注意对齐的高质量,这是在没有细化的情况下执行的。
由于迭代次数多,我们实现了非常精确的比对。注册时间低于1秒,这部分是通过我们改进的RANSAC程序实现的,部分是由于ECV代表的低密度。图6中最左边和最右边的场景分别由1255和1448个ECV上下文描述符描述。
在表1中,与标准的RANSAC算法相比,给出了两个相关的统计数据。这些数字是上述估计问题100次运行的平均值。为了能够比较时间,将两种情况下的迭代次数都设置为5000。观察到,改进的RANSAC平均比标准RANSAC快15倍。这是在不损害对齐质量的情况下实现的,这可以从平均拟合误差看出,该误差被计算为阈值内联数的平均值。
表1与标准RANSAC相比,改进的RANSAC的定时和平均内拟合误差,使用图6中场景配准问题的100次运行计算。
在这一节中,我们介绍了我们实验室机器人装置的物体姿态估计结果。在我们进行的所有实验中,单个物体的估计时间保持在0.1秒以下。我们目前使用本工作中提出的姿态估计算法来对我们研究所开发的机器人抓取策略进行基准测试。
(1) 模型表示:由于ECV处理需要图像来捕捉外观,我们从四个不同的角度渲染对象。从视图中提取的ECV特征被反投影到3D模型形状,之后为该视图建立上下文描述符。在姿态估计期间,我们使用场景中具有最佳匹配的视图。
(2)颜色校准:本实验的一个重要实际考虑因素是,所提供的对象模型中的颜色表示与我们设置中捕获的场景之间可能存在差异。这是因为对象/场景模型是在不同的照明条件下捕获的。由于对尝试复制捕捉对象时使用的照明条件不感兴趣,设计了一个简单的解决方案来对齐颜色空间。
假设一个RGB 颜色三元组 c K I T c_{KIT} cKIT经过一个线性映射 A A A到 c S D U c_{SDU} cSDU :
通过估计一个3乘3的矩阵,可以转换存储的对象模型的颜色值,使它们与我们的颜色条件一致。通过在物体模型和包含该物体的实验室场景之间标记一组对应的像素RGB值估计A。A有九个自由参数,我们用了十个彩色像素来估计。得到的颜色校准矩阵给出了使用ECV上下文描述符获得有效对应所需的颜色空间对齐。
图7展示了两个对象的姿态估计结果。为了完整起见,我们展示了一个对象的原始版本和颜色校准版本,这在估计过程中使用。估计的物体姿态对于通过抓取的机器人操作来说足够精确。
图7姿势估计结果来自我们的设置。左:输入Kinect场景。右上:输入纹理化的KIT对象(最左边的实例)和它们的颜色校准版本(最右边的实例)。右下:两个对象的估计结果,对齐的对象用红色覆盖。
提出了一种用于精确估计两个3D模型之间的对准姿态的系统。模型描述基于外观和形状数据。使用早期认知视觉系统,将输入数据分成边缘和中间的独立纹理域。通过在这些视觉形式上定义上下文描述符,实现了对场景的高度区分性解释。
为了以有效的方式利用我们的表示,提出了一个基于RANSAC的估计过程,该过程基于使用低级几何约束快速拒绝异常对应。我们的实验表明,这使得估计过程几乎比标准RANSAC快15倍,而不损害估计精度。
通过定量评估表明,我们的描述符在图像域和形状域中的表现几乎是现有描述符的两倍,因此使我们的基于上下文的描述符具有高度的区分性。对于十个非常不同的对象类,我们获得了27 %的平均对应分数。
最后,通过两个实际设置中的精确校准结果,展示了我们系统的实际可用性。该系统目前正在我们研究所的机器人抓取应用中使用,将来我们计划使用我们的系统在多个摄像机和机器人之间进行精确校准。
在未来的工作中,应该进行彻底的调查,以优化ECV特征的上下文描述符的公式。在这项工作中,我们选择了一种简单的组织程序设计方法,结合了简单的角度和RGB关系。虽然这已被证明是有效的,但上下文描述符无疑可以通过替代的基于几何和外观的差分度量来改进,可能使用目前仅用于局部图像结构分类的局部幅度、方向和相位。
[1] Buch A G , Kraft D ,Joni-Kristian Kämäräinen,et al.Pose estimation using local structure-specific shape and appearance context[J].IEEE, 2013.DOI:10.1109/ICRA.2013.6630856.
PCL 刚性目标的鲁棒姿态估计