paper: Image Matching from Handcrafted to Deep Features: A Survey |
SpringerLink
[IJCV2020, IF=13.369(2021)]本篇【图像匹配】大领域综述来自武汉大学、哈尔滨工业大学、上海交通大学,于2020.1投稿,2020.7被IJCV接收。论文双栏排版57页、引用文献500+,涵盖特征匹配、图匹配、点集配准等8个子领域,是一篇非常全面的大框架图像匹配综述。
且由于本人精力有限,译文大体基于机翻,但进行了初步的人工校正。如有不懂之处,可参照原文。
由于内容极多,本篇翻译分为七篇博文组成:
Image Matching from Handcrafted to Deep Features: A Survey 译文(第1、2章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 3 章)本篇
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 4 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 5 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第6、7章)
在各种视觉应用中,图像匹配(image matching)是一项基础而关键的任务,它可以从两幅或多幅图像中识别出相同或相似的结构/内容,然后将它们对应起来。在过去的几十年里,越来越多和多样化的方法被提出用于图像匹配,特别是近年来随着深度学习技术的发展。然而,它可能会留下几个未决问题,即对于不同的场景和任务要求,哪种方法是特定应用的合适选择,以及如何设计在准确性、鲁棒性和效率方面具有优异性能的更好的图像匹配方法。这促使我们对这些经典的最新技术进行全面系统的回顾和分析。在基于特征的图像匹配流水线之后,我们介绍了从人工方法到可训练方法的特征检测、描述和匹配技术,并从理论和实践上分析了这些方法的发展。其次,我们简要介绍了几种典型的基于图像匹配的应用,以全面了解图像匹配的意义。此外,我们还通过在代表性数据集上的大量实验,对这些经典和最新技术进行了全面和客观的比较。最后,我们总结了图像匹配技术的现状,并对未来的工作进行了深入的讨论和展望。本综述可作为(但不限于)图像匹配及相关领域的研究人员和工程师的参考。
一旦从原始图像中检测到有区别的兴趣点,就需要为每个特征耦合局部patch描述符,以便在两个或多个图像之间正确有效地建立特征对应关系。换言之,特征描述符通常用于将兴趣点周围的原始局部信息转换为稳定和有区别的形式,通常作为高维向量,以便两个对应的特征在描述符空间中尽可能接近,而两个非对应的特征尽可能远。
特征描述的处理过程可分为三个步骤:局部低级特征提取、空间池化和特征归一化(Lowe 2004;Rublee等,2011;Brown等,2010)。首先,必须提取局部图像区域的低级信息。该信息由像素强度和梯度组成,或者是从一系列可控滤波器获得。随后,将局部patch分为几个部分,并将局部信息汇集(池化)在每个部分中,然后使用汇集(池化)方法,如矩形网格(Lowe 2004)、极坐标网格(Mikolajczyk和Schmid 2005)、高斯采样(Tola等,2010)和其他方法(Rublee等,2011),将它们融合起来;联合特征表示被转换为更具鉴别性的表示,其可以以简化的形式保存重要信息以获得更好的匹配性能。最后,从聚合的局部信息的归一化结果中获得描述符,其目的是将聚合结果映射为浮点或二进制值的长向量,以便于评估图像特征之间的相似性。
与特征检测器相似,现有的描述符被提出和改进,使其变得高度鲁棒、高效和可鉴别,以解决图像匹配问题。在特征描述和匹配中,估计一个好的尺寸和方向对于裁剪的图像是核心的问题。通过正确识别尺寸和方向,匹配方法可以对全局和/或局部变形(如旋转和缩放)具有鲁棒性和不变性。与使用原始图像信息进行直接相似度测量相比,特征描述的初衷是为了增强识别能力。通过使用池化参数优化、采样规则设计或使用机器学习和深度学习技术,大量设计良好的描述符可以提高辨别和匹配性能。
特征描述已引起越来越多的关注。描述符可以被视为给定图像的可区分和鲁棒表示,并且不仅广泛用于图像匹配,还广泛用于图像编码:图像检索、人脸识别和基于图像相似性度量的其他任务。然而,基于区域的图像匹配方法使用原始图像信息的两个图像块的直接相似性度量,这将在下一节中进行讨论。至于基于图像patch的特征描述符,我们将根据其数据类型回顾传统的特征描述符(即浮点和二进制描述符)。在最近的数据驱动的方法中增加一个新的小节,包括传统的机器学习和新兴的基于深度学习的方法。我们将全面回顾人工设计和基于学习的特征描述方法,并展示这些方法之间的联系,为读者进一步研究提供有用的指导,特别是使用深度学习/CNN技术开发更好的描述方法。此外,我们还将综述3-D特征描述符,其中特征通常从没有任何图像像素信息但具有空间位置关系(例如,3-D点云配准)的点数据获得。
人工设计的特征描述符通常依赖于专家先验知识,这些知识在许多视觉应用中仍然广泛使用。遵循传统局部描述符的构造过程,第一步是提取低级别信息,这些信息可以简单地分类为图像梯度和强度。随后,常用的池化和标准化策略(如统计和比较)被应用于生成长而简单的向量,以便对数据类型(浮点或二进制)进行区分性描述。因此,手人工设计的描述符主要依赖于作者的知识,描述策略可以分为梯度统计、局部二值模式统计、局部强度比较和基于局部强度顺序统计的方法。
梯度统计方法通常用于形成浮点型描述符,例如SIFT(Lowe et al,1999;Lowe,2004)中引入的定向梯度直方图(HOG)(Dalal和Triggs 2005),另外还有诸如SIFT的改进版本(Bay et al 2006;Morel和Yu,2009;Dong和Soatto,2015;ToLa et al,2010),并且它们仍然广泛用于一些现代视觉任务。在SIFT中,特征尺度和方向分别由DoG计算和来自检测关键点周围的局部圆形区域的梯度方向直方图中的最大bin来确定,从而实现尺度和旋转不变性。在描述阶段,首先基于归一化尺度和旋转将检测到的特征的局部区域矩形划分为4×4个不重叠的网格,然后在每个单元中进行具有8个bin的梯度方向直方图,并将其嵌入128维浮点向量中作为SIFT描述符。
另一个代表性描述符,即SURF(Bay等人2006),可以通过使用Haar小波的响应来近似梯度计算来加速SIFT算子;其也用积分图像避免Haar小波响应中的重复计算,从而实现比SIFT更有效的计算。基于这两项的其他改进通常集中在辨别、效率、鲁棒性以及处理特定图像数据或任务。例如,CSIFT(Abdel Hakim和Farag 2006)提供了额外的颜色信息以增强辨别力,ASIFT(Morel和Yu,2009)模拟了通过改变两个相机轴方向参数获得的所有图像视图,以实现完全仿射不变性。Mikolajczyk和Schmid(2005)使用梯度方向的极性分割和直方图统计。SIFT-rank(Toews和Wells 2009)已被提出用于研究基于现成(off-the-shelf )SIFT的有序图像描述,以获得不变特征匹配。基于韦伯定律的方法(WLD)(Chen等人,2009年),通过对某些位置的差分激励和方向进行编码来计算直方图。
Arandjelovi´c和Zisserman(2012)使用平方根(Hellinger)核代替标准欧几里德距离度量,将原始SIFT空间转换为RootSIFT空间,并在不增加处理或存储要求的情况下获得了优异的性能。Dong和Soatto(2015)通过合并不同域大小的梯度方向,修改了SIFT,并提出了DSP-SIFT描述符。基于SIFT的宽基线立体的另一个有效密集描述符:DAISY(Tola等人,2010),使用对数极坐标网格排列和高斯池策略来近似梯度方向的直方图。受到DAISY的启发,DART(Marimon等人,2010年)可以有效地计算尺度空间,并将其重新用于描述符,从而提高效率。几种人工设计的浮点型描述符也在最近被提出,也性能有一定的提升作用。例如,局部重力的局部描述符(Bhattacharjee和Roy 2019)受到万有引力定律的启发,可以被视为力大小和角度的组合。
与SIFT类的方法不同,在过去几十年中,人们已经提出了几种基于强度统计的方法,这些方法受到了局部二值模式(local binary pattern,LBP)的启发(Ojala等人,2002)。LBP具有有利于其用于感兴趣区域描述的特性,例如对光照变化的容忍度和计算简单性。缺点是,该算子产生相当长的直方图,并且在平坦的图像区域中不具有显著的鲁棒性。中心对称LBP( Center-symmetric LBP,CS-LBP)(Heikkilä等,2009)(使用SVM进行分类器训练)是LBP的一个改进版本,结合了SIFT和LBP的优势,以解决平坦区域的问题。具体而言,CS-LBP使用类SIFT的网格,并用基于LBP的特征替换梯度信息。为了解决噪声问题,中心对称局部三元模式(center-symmetric local ternary pattern,CS-LTP)(Gupta等,2010)建议使用patch中的相对阶数直方图和LBP编码的直方图,例如相对强度直方图。这两种基于CS的方法比先前的描述符对高斯噪声更鲁棒。RLBP(Chen等人2013)通过改变编码比特来提高LBP的鲁棒性;Guo等(2010)已经开发了LBP算子的完整建模和相关的完整LBP方案用于纹理分类。类LBP的方法广泛用于纹理表示和人脸识别领域,其他细节可以在综述文献中找到(Huang等,2011)。
另一种形式的描述符是基于局部强度的比较,这也称为二元描述符,核心挑战是比较的选择规则。由于其区分性有限,这些方法大多限于短基线匹配。Calonder等(2010)提出了BRIEF描述符,该描述符由图像patch中几个随机点对的强度的二元测试结果连接而成。Rublee等(2011)将旋转的BRIEF与定向的FAST角结合起来,并在ORB算法中使用机器学习策略选择稳健的二元测试,以缓解旋转和尺度变化的限制。Leutenger等(2011)使用半径增加的同心圆采样策略发展了BRISK方法。受视网膜结构的启发,Alahi等(2012)通过比较视网膜采样模式上的图像强度,提出了FREAK描述符,以实现快速计算和低内存成本匹配,同时保持对缩放、旋转和噪声的鲁棒性。人工设计的二元描述符和传统的机器学习技术也被广泛研究,这些将在基于学习的小节中介绍。
到目前为止,许多方法都是利用像素值的顺序(order)而不是原始强度来设计的,实现了更具前景的性能(Tang等,2009;Toews和Wells,2009)。按强度顺序合并对旋转和单调强度变化是不变的,同时也将顺序信息编码到描述符中;强度顺序池化(order-pooling)规则可以使得描述符旋转不变,而无需像SIFT那样估计参考方向(这对于大多数现有方法来说是主要的误差源)。为了解决这一问题,Tang等人提出了有序空间强度分布(Tang等,2009)方法,该方法使用顺序空间强度直方图对捕获的纹理信息和结构信息进行归一化;所提出的方法对任何单调增加的亮度变化都是不变的。
Fan等(2011)基于多个支持区域中的梯度和强度顺序汇集(pool)了局部特征,并提出了基于多支持区域顺序的梯度直方图和多支持区域旋转和强度单调不变的描述符方法。LIOP中采用了类似的策略(Wang等人20112015),对每个像素的局部序数信息进行编码。在该项工作中,整体的序数信息被用来将局部斑块划分为子区域,这些子区域被用来积累LIOP。LIOP进一步改进为OIOP/MIOP(Wang等人,2015),然后可以对总体有序信息进行编码,以提高噪声和失真鲁棒性。他们还提出了一种基于学习的量化方法来提高其显著性。
如上所述,人工描述符需要专业知识来设计,并且可能忽略隐藏在数据中的有用模式。这促使了对基于学习的描述符的研究,由于其数据驱动的特性和有前景的性能,这些描述符最近变得非常流行。在下文中,我们将讨论一组在深度学习时代之前引入的基于传统学习的描述符。
基于学习的描述符可以追溯到PCA-SIFT(Ke等,2004),其中主成分分析(principal component analysis, PCA)被用来通过降低由局部图像梯度组成的向量维度来形成一个鲁棒而紧凑的描述符。Cai等人(2010)研究了使用线性判别投影来降低维度并提高局部描述符的可分辨性。Brown等(2010)通过使用鲍威尔(Powell)最小化和线性判别分析(linear discriminant analysis, LDA)技术寻找最佳参数,引入了一个具有一套构建模块的学习框架来构建描述符。Simonyan等(2014)基于Brown的工作提出了一个新的公式,将描述符学习中的空间池化和降维表示为凸优化问题(Brown等,2010)。同时,Trzcinski等(2012,2014)应用了增强技巧,从多个基于梯度的弱学习者学习增强的、复杂的非线性局部视觉特征表示。
除了上述浮点值描述符之外,二进制描述符由于其有益的特性,例如低存储要求和高匹配速度,在传统描述符学习中也很受欢迎。获取二进制描述符的自然方法是从提供的浮点值描述符中学习。这项任务通常通过哈希方法实现的,因此建议在保持新空间中的相似性的同时,应学习高维数据的紧凑表示。位置敏感哈希(Locality sensitive hashing,LSH)(Gionis等人,1999)可以说是一种流行的无监督哈希方法。该方法通过随机投影生成嵌入(embedding),并已用于许多大规模搜索任务。LSH的一些变体包括核化LSH(Kulis和Grauman,2009)、光谱哈希(Weiss等,2009)、语义哈希(Salakhutdinov和Hinton 2009)和基于p-稳定分布LSH(Datar等,2004)。这些变体在设计上是无监督的。
监督哈希方法也得到了广泛的研究,其中不同的机器学习策略被提出来学习适合特定任务的特征空间。在这种情况下,已经提出了大量的方法(Kulis和Darrell 2009;Wang等人2010;Strecha等,2012; Liu等,2012a;Norouzi和Blei,2011;Gong等,2013; Shakhnarovich,2005),其中图像匹配被认为是一项重要的实验验证任务。例如,Strecha等(2012)利用LDA技术以帮助哈希。Liu等(2012a)和Wang等提出了半监督序列学习算法(2010),以找到有区别的预测。最小损失哈希(Norouzi和Blei,2011)提供了一种新的公式,在具有潜变量的结构SVM的基础上学习二进制哈希函数。Gong等(2012)提出搜索零中心数据的旋转,从而最小化将描述符映射到零中心二元超立方体顶点的量化误差。
Trzcinski和Lepetit(2012)以及Trzcinsky等(2017)报告,发展二进制描述符的一种直接方法是直接从图像块中学习表示。在Trzcinski和Lepetit(2012)中,他们提出通过使用几个简单滤波器的线性组合将图像块投影到判别子空间,然后对其坐标设置阈值,以建立紧凑的二进制描述符。在图像匹配期间,描述符(例如SIFT)的成功表明了非线性滤波器(例如梯度响应)比线性滤波器更适合。Trzcinski等(2017)提出学习与AdaBoost强分类器相同形式的哈希函数,即非线性弱学习器的线性组合的符号。这项工作比Trzcinski和Lepetit(2012)更为普遍和强大,后者是基于简单阈值线性投影的。Trzcinski等(2017)提出生成每个patch独立适应的二进制描述符。这一目标通过对描述符的类间和类内在线优化来实现。
使用深度技术的描述符通常被表述为监督学习问题。其目标是学习一种表示,该表示可以使两个匹配的特征尽可能接近,而不匹配的特征在度量空间中相距很远(Schonberger等,2017)。描述符学习通常使用以检测到的关键点为中心的裁剪局部patch进行;因此,它也被称为patch匹配。一般而言,根据基于深度学习的描述符的输出,现有方法包括两种形式,即度量学习(Weinberger和Saul,2009;Zagoruyko和Komodakis,2015;Han等,2015;Kedem等,2012;Wang等,2017;Weinberge和Saul,2009)和描述符学习(Simo Serra等,2015;Balntas等,2016a,2017;Zhang等,2017c;Mishchuk等,2017;Wei等,2018;Heetal,2018;Tian等,2019;Luo等,2019)。这两种形式通常是联合训练的。具体地说,度量学习方法通常使用原始patch或生成的描述符作为输入,学习一个用于相似度测量的判别度量。相比之下,描述符学习倾向于从原始图像或patch生成描述符表示。这样的过程需要一种度量方法,如L2距离或已训练的度量网络,来进行相似性评估。与单一的度量学习相比,使用CNN来生成描述向量更加灵活,当有大量的候选patch可供对应搜索时,可以避免重复计算,从而节省时间。深度学习由于其在信息提取和表示方面的强大能力,在特征描述方面取得了令人满意的性能。
具有深度学习技术的描述符可以被视为基于传统学习的描述符的扩展(Schonberger等,2017)。例如,Chopra等(2005)中的孪生结构和普遍使用的损失函数,诸如hinge、孪生、三元组(triplet)、排序和对比损失等,在最近的深度方法中被借用和修改。具体而言,Zagoruyko和Komodakis(2015)提出了DeepCompare,并演示了使用通用patch相似度函数从原始图像像素直接学习的机制。在这种情况下,应用各种孪生类型的CNN模型来编码相似性函数。然后,训练这些模型以识别正图像patch对和负图像patch对。尝试的不同网络结构包括:具有共享或非共享权重的孪生结构,和中心环绕的形式。MatchNet(Han et al 2015)提出同时学习描述符和度量。这种技术通过级联孪生式描述网络和完全卷积决策网络来实现。该任务在交叉熵损失下被转换为分类问题。DeepDesc(Simo Serra等,2015)使用神经网络结合L2距离度量来学习判别式patch表示。特别地,它通过最小化成对hinge损失来训练具有成对正和负patch的孪生网络,所提出的难负例挖掘策略缓解了不平衡正负样本问题。因此,描述性能显著提高。Wang等(2014)提出了一种新的深度排序模型来学习细粒度图像相似性。该模型采用基于三元组的hinge损失和排序函数来表征细粒度图像相似性关系。一个多尺度的神经网络架构被用来捕捉全局视觉属性和图像语义。
Kumar等人(2016)首次使用全局损失来扩大正负patch对之间的距离边距。它是通过三元(triplet)网络和孪生(siamese)网络实现的,通过triplet和全局损失的组合进行训练。TFeat(Balntas等人2016b)提出利用训练样本的triplet,进行基于CNN的patch描述和匹配。它是用浅层卷积网络和快速难负例挖掘策略实现的。在L2-Net(Tian等,2017)中,Tian等人应用了渐进采样策略来优化欧几里得空间中基于相对距离的损失函数。该工作的作者考虑了中间特征图和描述符的紧凑性,以获得更好的性能。HardNet(Mishchuk等,2017)使用了带“批内最难(hardest-within-batch)”挖掘的简单的hinge triplet损失,实现了比L2-Net更好的改进。PN-Net(Balntas等,2016a)通过同时进行正负约束训练,使用了距离度量学习和在线提升领域的思想。与hinge损失或SoftMax比值相比,SoftPN损失函数具有更快的收敛速度和更低的误差(Wang等,2014; Zagoruyko和Komodakis,2015)。Zhang等(2017c)通过使用所提出的全局正交正则化以及triplet损失来训练网络,以鼓励描述符充分“展开”。这样做是为了充分利用描述符空间。
基于平均精确注意力的描述符学习(He等,2018)在排序式中引入一种通用学习。该方法被定义为一个约束,其中真实匹配应该被排在所有错误patch匹配之上,同时使用基于二进制和实值局部特征描述符进行优化。BinGAN(Zieba等,2018)提出了一种用于生成对抗性网络的正则化方法(Goodfellow等,2014),以学习图像块的有区别但紧凑的二进制表示。相比之下,Erin Liong等(2015)、Lin等(2016a)和Duan等(2017)专注于二进制描述符学习。除了损失函数、网络结构、正则化和难负例挖掘,Wei等人(2018)通过使用核化子空间池学习了一个有区别的深度描述符。Tian等(2019)在SOSNet中使用了二阶相似性。在ContextDesc(一种更新的方法)中,Luo等(2019)将局部patch相似性约束与感兴趣点的空间几何约束相结合,以训练其网络,这大大提高了匹配性能(IMW CVPR 2019: Leaderboard)。
如基于CNN的检测器中所述,越来越多的端到端学习方法将特征描述与检测器一起集成到完整的匹配Pipeline中。这些方法与上面回顾的那些单一设计的描述方法类似。主要的区别可能在于训练的方式和整个网络结构的设计。核心的挑战是如何使整个过程可区分和可训练。例如,LIFT(Yi et al 2016)试图通过端到端CNN网络同时实现关键点检测、方向估计和特征描述。
SuperPoint(DeTone等,2018)提出了一种用于训练多视图几何问题的感兴趣点检测器和描述符的自监督框架。全卷积模型在全尺寸图像上运行,并联合计算像素级的感兴趣点位置和相关的描述符,这与基于patch的网络相反。LF-Net(Ono等,2018)设计了一个双分支设置,并迭代创建虚拟目标响应,以允许从头开始训练,而不需要人工先验。该技术实现了特征图生成、使用顶部K选择和NMS的尺度不变关键点检测、方向估计和描述符提取。在LF-Net中,目标函数包括图像级损失(满足图像对、深度图和基本矩阵之间的额外约束)、逐patch损失(学习关键点,这些关键点有利于匹配,并涉及方向和尺度分量几何一致性),以及描述符学习的triplet损失。
随后,RF-Net(Shen等,2019)建立了一个从LF-Net结构修改而来的端到端可训练匹配框架。首先,构建的感知特征图导致了有效的关键点检测。其次,一个通用的损失函数项,即邻居掩码,有助于训练patch选择,以增强描述符训练的稳定性。D2-Net (Dusmanu等,2019)使用单个CNN发挥双重作用:同时实现密集特征描述符和特征检测器。在Bhowmik等(2020)中,通过使用强化学习的原理,在高级视觉任务下优化了关键点选择和描述符匹配。此外,Li等(2020)引入了双分辨率对应网络,通过提取不同分辨率的特征图以从粗到细的方式获得像素对应。
除了对同一目标或场景的特征匹配外,对于从类似目标/场景中捕获的图像的语义匹配也已经用CNN进行了研究,并取得了明显的提升。由于需要对语义相似性的理解,语义匹配问题可能对人工方法构成挑战。为此,UCN(Choy等,2016)使用深度度量学习来直接学习一个保留几何或语义相似性的特征空间。使用这种方法也有助于为几何或语义匹配任务生成密集而准确的匹配关系。具体而言,UCN实现了一种具有匹配对比损失(correspondence contrastive loss)的全卷积架构,用于快速训练和测试,并提出了一种用于局部patch归一化的卷积空间变换器。NCN(Rocco等,2018)基于消除歧义特征匹配的传统思想,设计了一个端到端的可训练的CNN架构,其使用半局部约束来寻找一对图像之间可靠的密集对应关系。这个框架通过分析全局几何模型的相邻一致性模式来识别空间上一致的匹配集合。该模型可以通过弱监督有效地进行训练,而不需要对点的对应关系进行任何人工注释。这种类型的框架可以应用于类别级和实例级的匹配任务,其他类似的方法在Han等(2017)、Plötz和Roth(2018)、Chen等(2018)、Laskar和Kannala(2018)、Kim等(2018,2020)、Ufer和Ommer(2017)和Wang等(2018)提出。
已经在3-D特征描述符上进行了大量研究。如前所述,由于深度学习范式在许多不同领域的革命性成功,许多研究人员已将注意力转向深度学习范式。这一事实促使我们将现代描述符分为两类,即人工设计的和基于学习的描述符。Guo等(2016)对传统人工设计的3D特征描述符进行了全面的性能评估,而忽略了基于学习的方法。在下一节中,我们简要介绍了最先进的人工描述符和基于学习的描述符。
Guo等人(2016)将人工描述符分为基于空间分布直方图和基于几何属性直方图的描述符,前者通过编码支持区域中点的空间分布的直方图表示局部特征。通常,为每个关键点构建局部参考框架/轴。相应地,三维支持区域被划分为多个bin以形成直方图。每个bin的值是通过累积空间分布测量值来计算的。一些代表性工作包括旋转图像(Johnson和Hebert,1999)、三维形状context(Frome等,2004)、独特征形状context (Tombari等,2010a)、旋转投影统计(Guo等,2013)和三旋图像(Guo et al,2015)。空间分布直方图描述符通过从支持区域中的几何属性(例如,法线、曲率)的统计生成直方图来表示局部特征。这些直方图包括局部表面patch(Chen和Bhanu,2007)、THRIFT(Flint等,2007),点特征直方图(Rusu等,2008),快速点特征柱状图(Rusu et al,2009)和方位直方图特征(Tombari等,2010b)。除了基于几何属性和空间分布直方图的描述符外,Zaharescu等(2009)引入了MeshHoG描述符,该描述符类似于SIFT(Lowe 2004),并使用梯度信息生成直方图。
光谱描述符,如全局点特征(Rustamov 2007)、HKS(Sun等,2009)和波核特征(WKS)(Aubry等,2011),也构成了该领域的一个重要类别。这些描述符是从与形状相关的拉普拉斯-贝尔特拉米(Laplace–Beltrami)算子的光谱分解中获得的。全局点特征(Rustamov,2007)利用形状上Laplace–Beltrami算子的特征值和特征函数来表示点的局部特征。HKS(Sun et al 2009)和WKS(Aubry et al 2011)分别基于热扩散过程和形状上量子力学粒子的时间演化。
人们还致力于通过使用不同的学习方案来普及光谱描述符。Litman和Bronstein(2014)将光谱描述符归纳为一个通用系列,并提议从实例中学习,以获得特定任务的优化描述符。该学习方案类似于维纳滤波器在信号处理中的思想。Rodolà等(2014)提出了一种学习方法,通过使用随机森林分类器,使波核描述符能够从实例集中识别更广泛的变形类别。Windheuser等(2014年)提出了一种公因子学习方法,以改善光谱描述符的表示。现代深度学习技术也得到了成功应用。Masci等(2015)进行了首次尝试,并介绍了CNN范式对非欧几里得流形的形状对应关系的概括。随后,Boscaini等人提出通过光谱卷积网络(Boscaini等,2015)和各向异性CNN(Boscaini等,2016)学习描述符。Monti等(2017)提出了一个统一的框架,将CNN架构泛化到非欧几里得领域(图和流形)。Xie等(2016)构建了一个深度度量网络,以形成用于形状特征描述的二进制光谱形状描述器。该输入是基于拉普拉斯-贝尔特拉米算子的特征值分解。
在空间领域,各种深度学习方法的差异往往在于对所消耗数据的表示。Wei等(2016)在形状的深度图表示上训练了一个深度CNN来寻找对应关系。Zeng等(2017)提出使用3D深度CNN来学习局部体积patch描述符。这个描述符消耗的是局部区域的截断距离函数值的体素网格。Elbaz等(2017)提出了一个深度神经网络自动编码器来解决三维匹配问题。作者使用随机球体覆盖集算法来检测特征点,并将每个局部区域投射到深度图中,作为神经网络的输入,以产生描述符。Khoury等(2017)通过使用以每个点为中心的球形直方图对输入进行参数化,并利用全连接网络生成低维描述符。Georgakis等(2018)最近采用了一个处理深度图的连体结构网络。Zhou等(2018)提出从多个视图的图像中学习,用于描述三维关键点。Wang等(2018b)将关键点的多尺度局部邻域参数化为规则的二维网格,作为triplet-architecture CNN的输入。Deng等(2018)在PointNet(Qi等,2017a)的基础上首次提出了一个无序网络。
这个网络可以消耗原始点云,这个网络可以消耗原始点云,以利用三维匹配任务中的全部稀疏性。
如前所述,图像patch描述符被指定为能够在检测到的特征点之间建立准确有效的对应关系。其目的是将原始图像信息转化为具有鉴别力的稳定表示,使两个匹配的特征尽可能接近,而未匹配的特征则相距甚远。为此,描述符应易于计算,计算量和存储要求低。这些描述符还应该在严重的变形和成像条件下保持其鉴别性和不变的特征。在下一节中,我们对人工设计的描述符进行了全面的分析,并介绍了基于学习的方法可以部分解决这些挑战并取得良好的性能的机制。
按照传统的局部描述符的构建过程,第一步是提取低层次的信息,这些信息可以简单地分为图像梯度和强度。具体来说,梯度信息可以被视为比原始强度更高阶的图像线索。通常需要将池化策略与直方图或统计学方式一起形成一个浮点描述符。因此,这种策略对几何变换的不变性更强(也许池化和统计策略使其更独立于像素位置和几何变化)。但是,在梯度计算和统计以及浮点型数据的距离度量方面需要额外的计算。基于LBP的方法通常具有很高的判别能力,对光照变化和图像对比度有很好的鲁棒性,常用于纹理表示和人脸识别。
与梯度和/或基于统计的方法相比,关于图像强度的简单比较策略会牺牲巨大的分辨力和鲁棒性。传统的机器学习技术通常被设计用来识别大量有用的比特。这些类型的方法通常需要参考方向估计来实现旋转不变,这似乎是大多数现有方法的一个主要错误来源。然而,强度顺序的使用对旋转和强度变化具有内在的不变性,不需要任何几何估计。将强度顺序与统计策略相结合,可以取得很好的效果。
基于学习的方法在很大程度上避免了对人工经验和先验知识的要求。它们自动优化并获得最佳参数,直接构建所需的描述符。传统的学习方法旨在使生成的描述符在效率、低存储量和辨别力方面更出色。然而,所使用的图像线索,如强度和梯度,仍然是低阶的,并且它们高度依赖于手工方法的框架。然而,那时涌现的目标函数、训练技巧和数据集对于设计更好的基于学习的方法是非常重要和有用的。因此,深度学习的出现进一步推动了传统学习中的这一过程。
有几个技巧可以帮助提高深度描述符的可辨别性和鲁棒性。一方面,中心包围和三元(triplet)体(甚至更多)结构可以提供大量的重要信息供学习。难负例挖掘策略会使结构集中在难负例上(可能也会导致过拟合),从而可以实现更好的匹配性能。更可靠的损失函数也应该根据描述任务的基本和内在属性来设计。例如,最近设计的triplet、排序、对比和全局损失,都比早期的简单hinge和交叉熵损失要好。另一方面,为了提高匹配和泛化能力,还需要有效和全面的真实数据集。目前,通过端到端方式将描述符与检测器一起训练到完整的匹配Pipeline中,也引起了人们的极大关注。这可以共同优化检测器和描述符,从而实现令人鼓舞的性能,而且其中的无监督训练不需要任何标记的真实patch数据就可以完成。目前的描述符可以通过使用深度技术在不同外观差异的图像对中取得明显的匹配性能,例如光照和昼夜。然而,这些描述符仍然受到严重的几何变形的影响,如大旋转或低重叠的图像对。对新类型数据的泛化能力低也是另一个限制。
描述符的整体性能也取决于合适的检测器。检测器和描述符的不同组合可能会导致不同的匹配性能。因此,应该根据具体的任务和图像数据的类型来选择描述符。使用深度学习的高级描述符已经显示出巨大的潜力。