《A Modified Census Transform Based on the Neighborhood Information for StereoMatching Algorithm》 2013
摘要 Census变换是一种非参数局部变换。它的缺点是结果过于依赖中心像素。提出了一种基于邻域信息的改进的Census变换用于立体匹配。通过改进经典的Census,新技术利用更多的比特来表示像素与其邻域信息之间的差异。修正后的普查变换结果图像在深度不连续处具有更详细的信息。经过立体匹配、亚像素插值和视差细化,可以得到较好的稠密视差图。实验表明,该算法机制简单,鲁棒性强。它可以提高匹配精度,适用于硬件系统。
关键词: 立体匹配;Census变换;邻域信息;深度不连续性
立体视觉是一种非常有吸引力的传感技术。它产生了一个几乎瞬时的估计距离的物体在一个场景中,并提供了3D信息,使用两个摄像头并行。 它已成功地应用于机器人导航、空间任务和复杂环境下的自动驾驶车辆障碍物检测等领域。立体匹配算法是立体视觉的关键,它解决的是在两个摄像机平面上寻找同一场景点的对应投影的对应问题。 近几十年来,立体匹配因其计算复杂性和实时性要求,在计算机视觉领域得到了广泛的研究。在早期阶段,绝大多数的研究集中在实现高质量的视差图图像。但大多数算法速度较慢,几乎不可能满足实时性的要求。最近的[2][3]研究集中在处理匹配的执行时间和质量之间的权衡。特别是以牺牲精度为代价获得最大速度和以牺牲速度为代价获得最大精度是一项艰巨的任务。
立体匹配算法总是试图找到两幅图像之间的点对点匹配,从而得到视差图。在实际应用中,由于噪声、遮挡区域、弱纹理区域或周期性纹理区域、图像中的反射以及物体非常薄等原因,这是一项困难的任务。 针对这一问题,提出了多种立体匹配算法。这些算法可以分为两大类:局部方法和全局方法[4]。全局方法可以得到精确、密集的视差图。但是由于全局方法的复杂性,使得它们很难同时在软件和硬件上实现。与全局方法相比,局部方法允许更简单、更规则的计算结构。它们有适合实时应用程序[1]的高效实现。在本研究中,我们介绍了一种基于经典普查变换的立体视觉算法。其主要贡献是显著提高了深度不连续的匹配质量。基于邻域信息,采用改进的人口普查变换进行局部成本计算。修改后的普查变换依赖于像素及其邻域的强度。结合融合步骤、视差计算步骤和视差细化步骤,得到的视差图具有较好的精度和鲁棒性。此外,还利用Middlebury立体声评价网站对结果进行了评价。
在最终评估之前,我们必须为算法选择合适的普查转换掩码大小和聚合块大小。此外,还将比较经典的人口普查算法和我们提出的算法。作为匹配质量的参考,我们用Middlebury立体像对测试算法,该立体像对由31个数据集组成,例如筑波、维纳斯、特迪和锥。这些立体对是用低噪音和高分辨率的照相机捕捉的。为了关闭真实的环境,这些数据集还附加了随机噪声。因此,对原始数据集和噪声数据集的匹配质量分别进行了分析。作为匹配质量的评价标准,该算法的总精度与地面真实图像进行了比较。它指定整个图像正确匹配多少像素。
首先,我们分析了最优的人口普查变换支持掩模尺寸 s r s_ r sr。图3展示了在不考虑成本聚集的情况下,增加块大小的匹配质量。它完全注重人口的转变。可以看出,对于整个掩模尺寸sr从5x5到23x23,最好的结果是在最大尺寸为11x11的时候。有噪声的数据集显示11x11也表现良好。这两项评估都显示了一个事实,即13x13及以上的超大普查口罩会导致匹配质量下降。主要原因是对象边界是由大的人口普查块。同时,大的普查块意味着普查转换图像中的大比特串。在成本计算过程中,它会导致很高的计算工作量。
其次,在找到合适的普查掩码后,必须分析聚合块大小sa。在图4中,示出了用于在普查掩码大小为11x11的情况下增加块大小 s a s_a sa的匹配质量。原始数据集的图表清楚地显示,匹配质量从块大小7x7开始下降。噪声数据集证明大数据块提高了匹配质量。由于嘈杂的场景关闭到真实世界的应用程序,考虑到计算复杂性,块大小9x9假设拟合良好。
在分别分析了统计掩码和聚合块大小后,对两者的更多组合进行了总结评价。通过以上分析可以看出,对于质量较差的图像,较大的普查掩码和聚集块大小可以提高图像的匹配质量。相反,对于高质量的图像,在普查掩码大小超过11x11时,7x7聚集的匹配质量更好。在实际应用中,使用了大普查掩码11x11和相对较小的聚合大小9x9。
利用上述参数,我们使用Middlebury立体评价法对算法的精度进行了评价,该方法提供了四个立体图像数据集,用于评价基于区域的立体匹配算法,并将结果与许多其他方法进行在线比较。我们将我们的结果与SAD-IGMCT[1]、IMCT[10]和MInonpara[11]这三种用于立体匹配的非参数局部变换算法进行了比较。
从表1可以看出,我们的算法在金星图像对上给出了最佳结果,在非遮挡区域和近深度不连续区域的误差最小。与SAD-IGMCT等算法相比,筑波图像对的结果并不具有竞争力。因为筑波图像对包含一些重复和噪声区域,导致聚集和细化的不正确匹配。SAD-IGMCT在利用原始人口普查数据对梯度图像进行变换时,计算出块中心像素的绝对差。它能更好地处理这个问题。但是SAD-IGMCT的过程比我们的复杂。
由于我们的方法像MI nonpara一样改变了经典的人口普查转换,因此两者之间的比较表明,转换格式可以有效地提高Venus、Teddy和Cones数据集中显示的匹配精度。虽然我们的方法的格式比MI nonpara有更多的位,但是它减少了成本加总的计算。它们都适合于快速的硬件实现。
遮挡区域和深度不连续点的处理方法与前面提到的方法类似,因为所有像素的空穴填充都是由左右一致性检查确定的。如图5所示,我们的插值策略在四幅立体图像上获得了更好的视差图。
虽然上述实验表明,我们的算法比经典的普查局变换工作得更好,但该算法是在假定表面包含足够的纹理进行适当匹配的情况下执行的。但是由于人口普查变换的局限性,我们的算法在弱纹理区域会失败。
本文提出并分析了一种改进的人口普查变换。作为一种基于区域的局部立体匹配方法,该算法利用中心像素及其邻域的强度信息来完成普查变换。其主要优点是提高了遮挡区域和深度间断的匹配质量。它还可以消除原有的人口普查转型定义中的一个基本限制。结果表明,在标准测试图像数据集上,改进的普查变换的相关精度优于或接近于其他普查变换。此外,与经典的人口普查变换相比,该算法在有噪声图像的情况下具有更强的鲁棒性。
提出了一种新的成本聚合方法,大大提高了密集视差图的质量。为了实现高精度的视差图,我们计划重点研究一种新的成本聚合方法,这种方法适合我们提出的算法。此外,由于算法的无算法性质,计算量比其他基于区域的局部方法要小。它具有在FPGA上直接实现的潜力。该算法的实时应用将是我们未来的研究方向。表1给出了该方法与其他算法的比较结果。表1中的数字代表了不同区域的绝对视差误差大于1的坏像素的百分比:它们是无遮挡的(nocc)、整幅图像(all)和靠近不连续点的像素(disc)。视差图的可视化比较如图5所示。