现有局部描述子的性能评估
Krystian Mikolajczyk Cordelia Schmid
计算机科学系 法国国立计算机与自动化研究所
牛津大学 罗纳-阿尔卑斯大区欧洲655大道
OX13PJ Montbonnot 38330
英国 法国
[email protected] [email protected]
摘要
本文中,我们对比了计算局部兴趣区域的描述子,如用Harris仿射变换探测器提取[32]。文献中提出了很多不同的描述子。然而,究竟哪种描述子更合适,不同兴趣区域探测器的性能如何并不清晰。描述子应该是鲜明的同时对可见条件的变化和探测器的误差要有一定的鲁棒性。本评估作为关于精度召回(recall)的使用标准,并在不同的图像变换中进行了实现。我们对比了形状上下文(context)[3],可操纵的滤波器[12],PCA-SIFT[19],微分不变性[20],旋转(spin)图像[21],SIFT[26],复杂滤波器[37],矩(moment)不变量[43]和不同类型兴趣区域的互相关性。我们还提出了一种SIFT描述子的扩展,结果表明它比原始方法效果要好。此外,我们观察到描述子的等级与兴趣区域探测器在多数情况下是独立的,基于SIFT的描述子表现最好。矩滤波器和可操纵滤波器在低维描述子中表现最优。
关键词:
局部描述子,兴趣点,兴趣区域,不变性,匹配,识别
1. 引言
计算兴趣区域的局部测光描述子被证明在诸如宽基线匹配[37,42],目标识别[10,25],纹理识别[21],图像检索[29,38],机器人定位[40],影像数据采矿[41],全景建立[4]和目标目录识别[8,9,22,35]等应用中非常出色。它们无需分割,并在遮挡下具有鲜明性。最近的工作主要是研究使这些描述子对图像转换具有不变性。这种方法是为了发现一类转换下的图像区域的协变量(covariant),这种协变量是用来支持计算不变量描述子的区域。
给出了不变量区域探测器,剩下的问题就是确定哪种描述子是最适合用来描绘该区域特征的,并依据区域探测器来选择出描述子。有大量可能的描述子和相关的距离测量方法,它们分别针对不同的图像属性,如像素强度,颜色,纹理,边缘等。在本次工作中,我们关注的是基于图像灰度值计算的描述子。
描述子的评估工作是在不同观察条件下对同一场景或目标进行匹配和识别得到的。我们选择了很多种之前在相关文章中性能良好的描述子,使用相同的方案和测试数据对比它们。评估标准是召回精度,如两幅图像中正确和错误的匹配数。另一种评估标准是从数据库中检索的图像上下文的ROC(接收机操作特性)[6,31]。探测率等于召回数,但误判率是由图像数据库计算得出而不是单个图像对。因此,预计一对相似图像实际的错误匹配很困难。
过去使用局部特征来识别和分类目标目录也是很成功的。本文中的描述子对比要使用一种不同的评估计划。然而,由于没有在一个目录内相关图像的线性转换,因此,对于怎样给一个目标目录选择具有代表性的图像集以及怎样准备地面真值仍不明确。一个可能的方案就是手动地选择一些对应点,并使用宽松的限制来验证正确匹配,如[18]中提出的。
本文中,实现了不同描述子,不同兴趣区域和不同匹配方法的对比。与我们之前的工作[31]相比,本文实现了更多更彻底的评估并介绍了一种新描述子。对比中加入了一些描述子和探测器,数据集包括大量场景类型和变换。我们改良了评估标准,现在使用的是对图像对的召回精度。等级最高的描述子和基于ROC方法的评估[31]相同。此外,我们的新描述子梯度位置和方向直方图(GLOH)是SIFT描述子的一个扩展,实验表明,比SIFT和其它描述子性能更佳。
A. 相关工作
性能评估在计算机视觉中有着越来越重要的地位[7]。在匹配和识别领域,一些作者评估了兴趣点探测器[14,30,33,39]。性能是由重复率评估的,这是同时出现在两幅图像中的点的百分率。两幅图像中的重复率越高,可能被匹配的点数就越多,而匹配和识别的结果就越好。
在匹配和识别的文章中,对局部描述子的评估的研究很少。Carneiro和Jepson[6]使用ROC(接收机操作特性)评估了点描述子的性能。他们成他们的基于相位的描述子性能优于微分不变量。在他们的对比中,使用Harris探测器探测兴趣点,并人工进行图像转换。最近,Ke和Sukthankar[19]研制了一种与SIFT相类似的探测器。它对归一化图像梯度碎片(patch)应用主成分分析(PCA),较人工生成数据的SIFT描述子性能更优。召回精度标准和图像对被用来比较描述子。
局部描述子(也叫滤波器)还被用来评估上下文纹理分类。Randen和Husoy[36]用一个纹理分类对比了不同的滤波器。本文中的滤波器评估是Laws面具(mask),Gabor滤波器,小波变换,DCT,特征滤波器,线性预测器和小波优化有限脉冲响应滤波器。没有一种方法被证实是最优的。分类错误主要来于纹理类型和描述子维数。Gabor滤波器在多数情况下优于其它滤波器。Varma和Zisserman[44]也比较了纹理分类的不同滤波器,结果表明MRF比基于高斯的滤波器组性能更好。Lazebnik等人[21]提出了一种新的称为“旋转图像”不变性描述子,并将其与Gabor滤波器进行了纹理分类上下文的对比。他们称基于区域的旋转图像较基于点的Gabor滤波器性能更好。然而,纹理描述子和纹理分类的结果不能直接调换(transpose)为区域描述子。区域中常常包含一个没有重复模式的单一结构,而在纹理描述子中频繁探索(explored)的统计依赖性不能用于本环境(context)。
B. 综述
在第二章中,我们呈现了局部描述子的艺术声明(state)。第三章阐述了我们对比和我们的评估标准已经数据集中的探测器和描述子的实现细节。第四章中,我们显示了实验结果。最后,我们对结果进行了讨论。
2. 描述子
已经有了很多不同的描述局部图像区域的技术。最简单的描述子就是图像像素矢量。互相关可被用来计算两个描述子之间的相似分数。然而,这些描述的高维数导致了识别工作较高的计算复杂性。因此,这个技术主要用于寻找两幅图像中的一致性。请注意,区域可以通过二次采样来降低维数。最近,Ke和Sukthankar[19]提出使用图像梯度补丁并应用PCA来降低描述子的大小。
基于分布的描述子。这些技术使用直方图来代表不同的外观特征或形状特征。一个简单的描述子是用直方图代表的像素强度的分布。Johnson和Hebert[17]在一定范围数据的上下文中进行三维目标识别中介绍了一个更加有表达力的描述。他们的代表(旋转图像)是三维兴趣点相邻的相关位置处的直方图。这个描述子最近被使用于图像[21]。直方图的两个维度分别是到中心点的距离和强度值。
Zabih和Woodfill[45]研发了一种对光照变化具有鲁棒性的方法。它依赖于像素强度间的相互关系(reciprocal)和顺序的直方图,这比原(raw)像素强度鲁棒性更强。几个相邻像素间强度的二值关系被二值串和所有直方图代表的可能的组合的分布编译。这个描述子适用于纹理表现,但要建立一个可靠描述子要求的维度很大[34]。
Lowe[25]提出了一种尺度不变的特征转换方法(SIFT),组合了一个尺度不变的区域探测器和基于探测区域梯度分布的描述子。描述子由一个三维的梯度位置和方向的直方图代表,阐述见图1。位置和方向箱的贡献由梯度量级来定权。梯度位置和方向的分层使得描述子对小的几何畸变和小的区域探测误差具有鲁棒性。几何直方图[1]和形状上下文[3]实现的是相同的理念,与SIFT描述子非常相似。两种方法都计算了位置和各角点方向的直方图,其中各角点对直方图具有一样的贡献。这些描述子被成功的使用,比如说,对于角为可信赖特征的图画(drawings)的形状识别。
空间域频率域技术。很多技术描述了一个图像的频率容量(content)。傅里叶转换把图像内容分解为基本的方程。然而,在这个表征中,点之间的表征关系并不明确,基础方程是无限的,因此很难适应与局部方法。Gabor的变换克服了这些问题,但是大量的Gabor滤波要求获取频率和方向中的微小变化。Gabor滤波和小波[27]在纹理上下文分类中被频繁地探测。
微分描述子。一组图像导数是由给出的顺序估计点的近邻的计算得出的。Koenderink调查了局部导数(局部喷口(jet))的属性[20]。Florack等人[11]导出了微分不变量,将局部喷口的成分组合来获取旋转不变量。Freeman和Adelson[12]开发了可操纵的滤波,可以对给出局部喷口成分的某一特定方向进行导数操纵。在梯度方向操纵导数使得它们对旋转具有不变性。一个稳定的导数估计是由与高斯求导做卷积得到的。图2(a)为高斯求至四阶导。
Baumberg[2]和Schaffalitzky和Zisserman[37]提出用族中导出的复杂滤波,其中θ是方向。对于公式f(x,y),Baumberg使用高斯导数而Schaffalitzky和Zisserman应用了一个多项式(cf.第三章B和图2(b))。这些滤波与在滤波响应空间的线性相关变化得到的高斯导数不同。
其它技术。Van Gool等人[43]介绍了广义矩不变量,用来阐述图像数据的多光谱本质。不变量包括由定义的中心矩,其中阶数为p+q,度数(degree)a。矩描述了形状和强度在区域Ω内的贡献的特征。它们独立并且可以在任意阶数和度数被简单的计算。然而,高阶数和度数对小的几何和测光变形敏感。计算不变量减少了维数。这些描述子因此更加适合彩色图像,可以计算每个色彩通道和通道之间的不变量。
3. 实验装置
A. 支持区域
B. 描述子
C. 性能评估
4. 实验结果
这一部分表明
表2展示的是撤销(recall)
图13. 匹配实例。这有400个最近邻匹配
5. 讨论与总结
本文中,
在多数试验中,
最好的低维描述子是
互相关给出了不稳定的结果。
由Hessian-Laplace和Hessian仿射变换
描述子的等级与不同的匹配策略相似。
很明显,
相似的实验应
感谢
这项研究
参考文献
[1] A.Ashbrook, N.Thacker, P. Rockett, and C.Brown. Robust recognition of scaled shapes using pairwise geometric histograms. In D.Pycock, editor, Proceedings of the sixth British Machine Vision Conference, Birmingham, UK, pages503-512,1995.
[2] A.Baumberg. Reliable feature matching across widely separated views. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Hilton Head Island, South Carolina, USA, pages774-781,2000.
[3] S.Belongie, J. Malik, and J. Puzicha. Shape matching and object recognition using shape contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(4):509-522,2002.
[4] M.Brown and D.Lowe. Recognising panoramas. In Proceedings of the 9th International Conference on Computer Vision, Nice, France, pages 1218-1227,2003.
[5] J. Canny. A computational approach to edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6):679-698,1986.
[6] G.Carneiro and A.D.Jepson. Phase-based local features. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages282-296,2002.
[7] H.I. Christensen and P.J.Phillips, editors. Empirical Evaluation Methods in Computer Vision, volume 50 of Series in Machine Perception and Artificial Intelligence. World Scientific Publishing Co.,2002.
[8] G.Dorko and C.Schmid. Selection of scale-invariant parts for object class recognition. In Proceedings of the 9th International Conference on Computer Vision, Nice, France, pages634-640,2003.
[9] R.Fergus, P.Perona, and A.Zisserman. Object class recognition by unsupervised scale-invariant learning. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages 264-271,2003.
[10] V. Ferrari, T.Tuytelaars, and L.Van Gool. Simultaneous object recognition and segmentation by image exploration. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 40-54,2004.
[11] L.Florack, B.ter Haar Romeny, J.Koenderink, and M.Viergever. General intensity transformations and second order invariants. In Proceedings of the 7th Scandinavian Conference on Image Analysis, Aalborg, Denmark, pages 338-345,1991.
[12] W.Freeman and E.Adelson. The design and use of steerable filters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 13(9): 891-906, 1991.
[13] D.Gabor. Theory of communication. Journal I.E.E., 3(93):429-457,1946.
[14] V.Gouet, P.Montesinos, R.Deriche, and D.Pelé. Evaluation de détecteurs de points d'intérêt pour la couleur. In 12ème Congrès Francophone AFRIF-AFIA de Reconnaissance des Formes et Intelligence Artificielle, pages 257-266,2000.
[15] C.Harris and M.Stephens. A combined corner and edge detector. In Alvey Vision Conference, pages147-151,1988.
[16] R.Hartley and A.Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press,2000.
[17] A.Johnson and M.Hebert. Object recognition by matching oriented points. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Puerto Rico, USA, pages684-689,1997.
[18] T.Kadir, M.Brady, and A.Zisserman. An affine invariant method for selecting salient regions in images. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 345-457, 2004.
[19] Y.Ke and R.Sukthankar. PCA-SIFT: A more distinctive representation for local image descriptors. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Washington, USA, pages511-517,2004.
[20] J.Koenderink and A.van Doorn. Representation of local geometry in the visual system. Biological Cybernetics, 55:367-375,1987.
[21] S.Lazebnik, C.Schmid, and J.Ponce. Sparse texture representation using affine-invariant neighborhoods. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages 319-324,2003.
[22] B.Leibe and B.Schiele. Interleaved Object Categorization and Segmentation. In Proceedings of the 14th British Machine Vision Conference, Norwich, UK, pages759-768,2003.
[23] T. Lindeberg. Feature detection with automatic scale selection. International Journal of Computer Vision,30(2):79-116,1998.
[24] T.Lindeberg and J.Garding. Shape-adapted smoothing in estimation of 3-D shape cues from affine deformations of local 2-D brightness structure. Image and Vision Computing, 15(6):415-434,1997.
[25] D.Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision,2(60):91-110,2004.
[26] D.G.Lowe. Object recognition from local scale-invariant features. In Proceedings of the 7th International Conference on Computer Vision, Kerkyra, Greece, pages 1150-1157,1999.
[27] J.K.M.Vetterli. Wavelets and Subband Coding. Prentice Hall,1995.
[28] J. Matas, O.Chum, M.Urban, and T.Pajdla. Robust wide baseline stereo from maximally stable extremal regions. In Proceedings of the 13th British Machine Vision Conference, Cardiff, UK, pages 384-393,2002.
[29] K.Mikolajczyk and C.Schmid. Indexing based on scale invariant interest points. In Proceedings of the 8th International Conference on Computer Vision, Vancouver, Canada, pages525-531,2001.
[30] K.Mikolajczyk and C.Schmid. An affine invariant interest point detector. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages128-142,2002.
[31] K.Mikolajczyk and C.Schmid. A performance evaluation of local descriptors. In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages257-264,2003.
[32] K.Mikolajczyk and C.Schmid. Scale & affine invariant interest point detectors. International Journal of Computer Vision, 1(60):63–86,2004.
[33] K.Mikolajczyk, T.Tuytelaars, C.Schmid, A.Zisserman, J.Matas, F.Schaffalitzky, T.Kadir, and L.V.Gool. A comparison of affine region detectors. Submitted to International Journal of Computer Vision.
[34] T.Ojala, M.Pietikainen, and T.Maenpaa. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(7): 971-987,2002.
[35] A.Opelt, M.Fussenegger, A.Pinz, and P.Auer. Weak hypotheses and boosting for generic object detection and recognition. In Proceedings of the 8th European Conference on Computer Vision, Prague, Tcheque Republic, pages 71-84,2004.
[36] T.Randen and J.H.Husoy. Filtering for texture classification: A comparative study. IEEE Transactions on Pattern Analysis and Machine Intelligence, 21(4):291–310,1999.
[37] F.Schaffalitzky and A.Zisserman. Multi-view matching for unordered image sets. In Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, pages414–431,2002.
[38] C.Schmid and R.Mohr. Local grayvalue invariants for image retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 19(5): 530-534,1997.
[39] C.Schmid, R.Mohr, and C.Bauckhage. Evaluation of interest point detectors. International Journal of Computer Vision, 37(2):151–172,2000.
[40] S.Se, D.Lowe, and J.Little. Global localization using distinctive visual features. In International Conference on Intelligent Robots and Systems,IROS2002,Lausanne, Switzerland, pages226-231,2002.
[41] J.Sivic and A.Zisserman. Video google: A text retrieval approach to object matching in videos. In Proceedings of the 9th International Conference on Computer Vision, Nice, France. pages1470-1478,2003.
[42] T.Tuytelaars and L.Van Gool. Matching widely separated views based on affine invariant regions. International Journal of Computer Vision, 1(59): 61-85,2004.
[43] L.Van Gool, T.Moons, and D.Ungureanu. Affine/ photometric invariants for planar intensity patterns. In Proceedings of the 4th European Conference on Computer Vision, Cambridge, UK, pages642-651,1996.
[44] M.Varma and A.Zisserman. Texture classification: Are filter banks necessary? In Proceedings of the Conference on Computer Vision and Pattern Recognition, Madison, Wisconsin, USA, pages477–484,2003.
[45] R.Zabih and J. Woodll. Non-parametric local transforms for computing visual correspondence. In Proceedings of the 3rd European Conference on Computer Vision, Stockholm, Sweden, pages151-158,1994