基于局部区域的立体匹配(代价聚合部分):
参考ppt:Stereo Vision: Algorithms and Applications
说到立体匹配,就是从两幅相关的场景中找到相同的点的过程。如图1,人眼观察图片,通过一些先验知识,可以很快分析出台灯和石膏像等一些其他的物体,并且很容易找到不同图像中同一物体的对应关系。但在图像的空间中,只存在经过量化的数字,如何准确判断不同图像中点的对应关系就是匹配的关键。
既然每一个像素对应为一个数字,最直观的就是比较数字大小,最相近的就是同一个点。如何刻画两个点的相近程度,主要有绝对差值(Absolute differences)和平方差值(Squared differences)。但由于图像经过采样量化得到,会引入噪声,使得同一个点,在不同图像中的响应值存在差异,单纯通过比较一个点会造成很大的误差。
(BT算法可以降低采样误差,参看论文:《Depth discontinuities by pixel-to-pixel stereo》–Birchfield and Tomasi)
其中一种常用的方法就是在带匹配的像素周围开一个窗口,窗口中区域会包含更多信息,且对噪声有一定改善。那么现在的目标就从计算一个像素的相近程度转到计算一个区域的相近程度,一般用相关性来描述。从用来描述区域相关性的指标有绝对误差和(SAD)、平方差和(SSD)、截断的绝对差和(STAD)。
接下来根据不同的情况来判断基于窗口的匹配策略的好坏及改进方法。
最为基础的就是固定窗口(Fixed Window,FW),即对图像中所有区域使用用一个窗口大小进行计算,得到结果如下:
可以看出得到的结果并不理想,那么是由上面造成的,针对典型区域进行分析:
a.基于窗口的策略隐式假设了窗口区域为平面,但a区域实际是曲面(这一点好理解,先放一放);
b.台灯与后面书架的深度有突变,是不连续的区域;
c.墙面为同质区,缺乏纹理;
d.几本书籍相似,具有重复纹理;
在深度不连续的地方,会造成不同视角下,背景变化明显,使得前景物体轮廓处的匹配出现误差,可以通过原图直观感受下。
对于同质区与重复纹理区,则需要扩大窗口区域,使得窗口中包含跟多信息,来进行匹配定位。一般来说,窗口过小会使同质区和重复纹理区无法正确匹配并且会使噪声干扰加重;过大的窗口尺寸会增加计算量。所以改进的几点就从窗口的尺寸和窗口的位置入手。
可移动窗口(Shiftable Windows)
(A. Bobick and S. Intille. Large occlusion stereo. IJCV,33(3):181–200, 1999.)
该方法主要是解决FW在边界定位不准确的问题,采用的策略上调整中心点位置,也就是确保了窗口区域尽可能多的在同一物体或等深度面上。
过程:分别以中心点在不同位置进行开窗,如下图,计算相似度,选取相似度最接近的作为点。
多窗口(Multiple Windows)
(H. Hirschmuller, P. Innocent, and J. Garibaldi, Real-time correlation-based stereo vision with reduced border errors Int. Journ. of Computer Vision, 47:1–3, 2002)
其本质也是想解决窗口区域需尽量在同一物体或等深度面上。
过程:以中心点开33个55的窗,不明白的直接看图。分别计算3*3中每个窗的相关性,选择中间矩形框和周边相关性最高的4个,求和后作为该点的相关性值。其中一次的结果如图。该方法可以在一定程度上动态调整开窗区域的形状,但是最小窗口的选取大小,限制了提取精度。
可变窗口(Variable Windows)
(O. Veksler, Fast variable window for stereo correspondence using integral images In Proc. Conf. on Computer Vision and Pattern Recognition (CVPR 2003), pages 556–561, 2003)
可变窗口其实是可移动窗口的改进版本,可变的是窗口大小,中心点位置改变则与可移动窗口一致。同时由与窗口尺寸变化导致计算量很大,采用了DP来加速尺寸选择。
基于图像分割
(M. Gerrits and P. Bekaert, Local Stereo Matching with Segmentation-based Outlier Rejection Proc. Canadian Conf. on Computer and Robot Vision, 2006)
该方法基于一个假设,在同一个分割区域内,视差变化的稳定的。对参考图进行图像分割,窗口的形状与尺寸与分割区域相关。与中心点同一区域的窗口点的权值高,其他的点权值低。
自适应权值(Adaptive Weights)
(K. Yoon and I. Kweon. Adaptive support-weight approach for correspondence search IEEE PAMI, 28(4):650–656, 2006)
该方法是对窗口中像素赋予不同的权值大小,同时考虑了空间与颜色相关性,距中心像素越近权值越高,与中心像素颜色相关性越大权值越高,这一点与双边滤波的原理很类似。考虑到算法的稳定性,文中将计算两幅图像中带匹配点的两个权重模板进行组合得到最终的权值。该算法计算量较大,且易受到噪声影响。
基于图像分割的自适应窗口(Segment Support,SS)
(F. Tombari, S. Mattoccia, L. Di Stefano, Segmentation-based adaptive support for accurate stereo correspondence IEEE Pacific-Rim Symposium on Image and Video Technology (PSIVT 2007))
自适应权值方法考虑到空间与颜色相关性,由于空间的因素会弱化物体结构信息,所以基于图像分割的自适应窗口综合分割区域与颜色相关性两个因素。窗口中与中心点在同一分割区域的像素权值设为1,区域之外的像素权值设置为AW的权值。在基于窗口的方法中也就是哪几种花样来回组合,碰到效果好的就该你发论文。下图中红色区域权值大,黄色区域权值小。AW方法就减少了参考区域,因为距中心点太远的部分权值很小,基于图像分割的可以保证同一区域对中心点的相似性贡献更多。当然该算法计算量更大
快速聚合算法(Fast Aggregation)
(F. Tombari, S. Mattoccia, L. Di Stefano, E. Addimanda, Near real-time stereo based on effective cost aggregation International Conference on Pattern Recognition (ICPR 2008))
也是基于图像分割的算法,但是与前面不同的是只用计算参考图的分割结果。其中Sp为分割区域,Wp为中心点开窗区域,最终的相似度计算是分局两个窗口相加得到,其实Wp区域相当于计算了两遍,隐式表明了靠近中心点的权值更高。
快速双边匹配(Fast Bilateral Stereo framework,FBS)
(S. Mattoccia, S. Giardino,A. Gambini, Accurate and efficient cost aggregation strategy for stereo correspondence based on approximated joint bilateral filtering, Asian Conference on Computer Vision (ACCV2009))
该方法主要是解决AW易受到噪声影响和计算量大的问题,采取的方法简单粗暴,开小窗取平均,也就是均值滤波。
W是开的大窗口,然后再将这个窗口在进行开窗,小窗大小为w,然后用小窗内的平均值代替小窗内像素的值,由于小窗内颜色一样,所以颜色相似度都一样,就减少了一些计算量。
快速分割匹配(Fast Segmentation-driven,FSD)
(S. Mattoccia, L. De-Maeztu, A fast segmentation-driven algorithm for fast and accurate stereo correspondence, IC3D 2011)
没错,还是同一个人,还是同样的配方,将取平均的做法用在SS方法上,简直了。
(先整这么多,待续。。。)