Image Matching from Handcrafted to Deep Features: A Survey 图像匹配译文(一)

Image Matching from Handcrafted to Deep Features: A Survey 译文

paper: Image Matching from Handcrafted to Deep Features: A Survey |
SpringerLink
[IJCV2020, IF=13.369(2021)]

本篇【图像匹配】大领域综述来自武汉大学、哈尔滨工业大学、上海交通大学,于2020.1投稿,2020.7被IJCV接收。论文双栏排版57页、引用文献500+,涵盖特征匹配、图匹配、点集配准等8个子领域,是一篇非常全面的大框架图像匹配综述。
且由于本人精力有限,译文大体基于机翻,但进行了初步的人工校正。如有不懂之处,可参照原文。
由于内容极多,本篇翻译分为七篇博文组成:
Image Matching from Handcrafted to Deep Features: A Survey 译文(第1、2章)本篇
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 3 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 4 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第 5 章)
Image Matching from Handcrafted to Deep Features: A Survey 译文(第6、7章)

原文目录如下:
Image Matching from Handcrafted to Deep Features: A Survey 图像匹配译文(一)_第1张图片


文章目录

    • Image Matching from Handcrafted to Deep Features: A Survey 译文
    • 摘要
    • 1 引言(Introduction)
    • 2 特征检测(Feature Detection)
      • 2.1 特征检测器的概述(Overview of Feature Detectors)
      • 2.2 角特征(Corner Features)
        • 2.2.1 基于梯度的检测器(Gradient-Based Detectors)
        • 2.2.2 基于密度的检测器(Intensity-Based Detectors)
        • 2.2.3 基于曲率的检测器(Curvature-Based Detector)
      • 2.3 斑点特征(Blob Feature)
        • 2.3.1 基于二阶偏导检测器(Second-Order Partial Derivative-Based Detectors)
        • 2.3.2 基于分割的检测器(Segmentation-Based Detectors)
      • 2.4 可学习的特征(Learned Features)
        • 2.4.1 基于传统学习的检测器(Classical Learned-Based Detectors)
        • 2.4.2 基于深度学习的检测器(Deep Learned-Based Detectors)
      • 2.5 3D特征检测器(3-D Feature Detectors)
        • 2.5.1 固定尺度检测器(Fixed-Scale Detectors)
        • 2.5.2 自适应尺度检测器(Adaptive-Scale Detectors)
      • 2.6 总结(Summary)


摘要

在各种视觉应用中,图像匹配(image matching)是一项基础而关键的任务,它可以从两幅或多幅图像中识别出相同或相似的结构/内容,然后将它们对应起来。在过去的几十年里,越来越多和多样化的方法被提出用于图像匹配,特别是近年来随着深度学习技术的发展。然而,它可能会留下几个未决问题,即对于不同的场景和任务要求,哪种方法是特定应用的合适选择,以及如何设计在准确性、鲁棒性和效率方面具有优异性能的更好的图像匹配方法。这促使我们对这些经典的最新技术进行全面系统的回顾和分析。在基于特征的图像匹配流水线之后,我们介绍了从人工方法到可训练方法的特征检测、描述和匹配技术,并从理论和实践上分析了这些方法的发展。其次,我们简要介绍了几种典型的基于图像匹配的应用,以全面了解图像匹配的意义。此外,我们还通过在代表性数据集上的大量实验,对这些经典和最新技术进行了全面和客观的比较。最后,我们总结了图像匹配技术的现状,并对未来的工作进行了深入的讨论和展望。本综述可作为(但不限于)图像匹配及相关领域的研究人员和工程师的参考。

1 引言(Introduction)

基于视觉的人工系统广泛用于指导机器感知和理解周围环境,以做出更好的决策,在全球自动化和人工智能时代发挥着重要作用。但是,如何在特定的要求下处理感知到的信息,并理解多个视觉任务的差异和/或关系,在各个领域都是重要的话题,包括计算机视觉、模式识别、图像分析、安全和遥感。图像匹配是一项重要的任务,也称为图像配准(image registration)或对应(image correspondence),目的是从两幅或多幅图像中识别并对应相同或相似的结构/内容。该技术用于高维结构恢复以及信息识别和整合,如三维重建、视觉同步定位和映射(VSLAM)、图像拼接、图像融合、图像检索、目标识别和跟踪以及变化检测等。

图像匹配在两个对象的配对中具有丰富的含义,因此衍生出许多特定的任务,例如稀疏特征匹配、密集匹配(像图像配准(image registration)和立体匹配(stereo matching))、patch匹配(检索(retrieval))、二维和三维点集配准以及图形(graph)匹配。图像匹配一般由两部分组成,即匹配特征的性质和匹配策略,它们分别表示什么用来匹配和如何匹配它们。最终目标是将感知图像几何扭曲到参考图像的公共空间坐标系上,并使它们的公共区域像素到像素(pixel-to-pixel)间对齐(即图像配准)。为此,一种直接策略,也称为基于区域的方法,通过使用原始图像像素强度的相似性度量或在预定义大小的滑动窗口或甚至整个图像中像素域变换后的信息来配准两幅图像,而不试图检测任何显著的图像结构。

另一种经典的广泛采用的pipeline是基于特征的方法,即特征检测和描述、特征匹配、变换模型估计、图像重采样和变换,已经在著名的综述论文(Zitova和Flusser 2003)中介绍并应用于各种领域。基于特征的图像匹配由于其灵活性和鲁棒性以及广泛的应用能力而受到欢迎。特别地,特征检测可以从图像中提取独特的结构,并且特征描述可以被视为广泛用于图像编码和相似性测量(例如图像分类和检索)的图像表示方法。此外,由于深度学习技术在深度特征获取和非线性表达方面的强大能力,将深度学习技术应用于图像信息表示和/或相似性度量,以及图像对变换的参数回归,是当今图像匹配界的热门话题,与传统方法相比,已被证明取得了更好的匹配性能和更大的潜力。

在现实世界设置中,用于匹配的图像通常取自相同或相似的场景/对象,同时在不同时间、从不同视点或成像模态捕获。具体而言,建立正确的对应关系需要稳健高效的匹配策略,从而激发了各种方法来实现更好的效率、稳健性和准确性。尽管几十年来已经设计了许多技术,但就以下方面而言,开发一个统一的框架仍然是一项具有挑战性的任务:

  • 基于区域的方法直接匹配图像,其通常依赖于适当的patch相似性测量来创建图像之间的像素级匹配。它们可能是计算昂贵的,并且对图像失真、噪声引起的外观变化、变化的照明和不同的成像传感器敏感,这可能对相似性测量和匹配搜索有负面影响。因此,通常这些方法只能在小的旋转、缩放和局部变形下工作良好。
  • 基于特征的匹配方法效率更高,能更好地处理几何变形。但是它们是基于显著特征检测和描述、特征匹配和几何模型估计的,这些也是具有挑战性的。一方面,在基于特征的图像匹配中,很难定义和提取在真实世界的3D空间中属于相同位置的高百分比和大量的特征以确保可匹配性。另一方面,将N个特征点与在另一幅图像中检测到的N个特征点进行匹配将产生总共N!可能的匹配,并且成千上万的特征通常从高分辨率图像中提取,并且主要的异常值和噪声通常包含在点集中,这导致现有匹配方法的显著困难。尽管已经提出了各种局部描述符,并与检测到的特征相结合以简化匹配过程,但是局部外观信息的使用将不可避免地导致模糊和大量错误匹配,尤其是对于低质量、重复内容的图像,以及那些经历严重非刚性变形和极端视点变化的图像。
  • 通常需要预定义的变换模型来指示两个图像或点集之间的几何关系。但是它可能因不同的数据而异,并且事先是未知的,因此难以建模。简单的参数模型对这些图像对通常是不够的:由真实表面波动和图像视点变化引起的非刚性变换的图像对、具有不同运动属性的多目标以及局部失真的图像对。
  • 深度学习的出现为解决图像匹配问题提供了新的途径,并显示出巨大的潜力。然而,它仍然面临着一些挑战。当应用于复杂和严重变形下的宽基线图像立体或配准时,从图像学习用于直接配准或变换模型估计的选项受到限制。将卷积神经网络(CNN)应用于稀疏点数据以进行匹配、配准和转换模型估计也很困难,因为要匹配的点(由于其无序和分散的性质而被称为非结构化或非欧几里德数据)使得难以使用深度卷积技术来操作和提取两个或更多点之间的空间关系(例如,相邻元素、相对位置以及多点之间的长度和角度信息)。

现有的综述集中在图像匹配任务的不同部分,未能涵盖过去十年的文献。例如,早期的综述(Zitova和Flusser 2003Tuytelaars和Mikolajczyk 2008;Strecha等人,2008年;Aanæ等人,2012年;Heinly等人,2012年;Awrangjeb等人,2012年;Li等 ,2015)通常专注于人工制作的方法,这不足以为研究基于CNN的方法提供有价值的参考。大多数最近的综述涉及可训练的技术,但它们仅涵盖图像匹配领域的单个部分,无论是聚焦于检测器(Huang等人2018;Lenc和Vedaldi,2014)或描述符(Balntas等,2017; Schonberger等,2017)或特定匹配任务(Ferrante and Paragios,2017;Haskins等,2020;Yan等,2016b;Maiseli et al. 2017),还有很多人更关注相关应用(Fan et al . 2019;Guo等,2016;Zheng等,2018;Piasco等,2018)。在本次综述中,我们旨在提供一个最新的和全面的总结和评估现有的图像匹配方法,特别是最近推出的基于学习的方法。更重要的是,我们对现有文献中缺失的主流方法进行了详细的评价和分析。

Image Matching from Handcrafted to Deep Features: A Survey 图像匹配译文(一)_第2张图片

Fig.1 Structure of this survey

这项综述主要集中在基于特征的匹配,虽然patch匹配,点集配对,和其他相关的匹配任务也进行了审查。整体组织如图1所示。第2节和第3节分别描述了特征检测和描述技术,从人工方法到可训练的方法。patch匹配被归类为一个特征描述领域,对三维点集特征也进行了调研。在第4节中也提出了不同的匹配方法,包括基于区域的图像匹配、纯点集配准、图像描述符相似性匹配和误匹配消除、图匹配和基于学习的方法。第5节和第6节分别介绍了基于图像匹配的视觉应用和评价指标,包括性能比较。在第7节中,我们总结并讨论未来可能的发展。

2 特征检测(Feature Detection)

早期的图像特征都是人工标注的,在一些低质量的图像匹配中还在使用。随着计算机视觉的发展和对自动匹配方法的需求,许多特征检测方法被引入以从图像中提取稳定和清晰的特征。

2.1 特征检测器的概述(Overview of Feature Detectors)

检测到的特征表示图像或现实世界中的特定语义结构,并且可以被分成角(corner)特征(Moravec 1977;Harris等,1988; Smith and Brady,1997; Rosten and Drummond,2006;Rublee等,2011),斑点(blob)特征(Lowe,2004;Bay等,2006;Agrawal等,2008;Y i等,2016),线/边(line/edge)特征(Harris等,1988;Smith and Brady,1997;Canny,1987;Perona and Malik,1990),以及形态学区域(morphological region)特征(Matas等,2004;Mikolajczyk等,2005)。然而,用于匹配的最流行的特征是点特征,也称为关键点(keypoints)或兴趣点(interest points)。与线和区域特征相比,点易于提取和定义,具有简化的形式,线和区域特征可以粗略地分类为角和斑点。

一个好的兴趣点,必须满足:容易找到;理想情况下能够快速计算。因为,在一个好的位置上的兴趣点对于进一步的特征描述和匹配是至关重要的。为了促进(I)匹配性,(ii)后续应用的能力,以及(iii)匹配效率和存储需求的减少,已经提出了用于可靠特征提取的许多所需的属性(Zitova和Flusser 2003;Tuytelaars和Mikolajczyk 2008),包括可重复性、不变性、鲁棒性和效率。特征检测的一般思想是构造一个特征响应来区分显著的点、线和区域,以及平坦的和无区别的图像区域。这个思想可以随后被分类为:梯度说的、强度的、二阶导数的、轮廓曲率的、区域分割的和基于学习的检测器。在下文中,我们提供了这些方法的特征检测器的全面介绍,且更侧重于基于学习的方法,以指导研究人员了解传统和可训练的检测器如何工作,并给出对它们的优点和缺点的见解。

2.2 角特征(Corner Features)

角特征可被定义为,例如两条直线与“L”、“T”、“X”形式的交叉点,或轮廓的高曲率点。角检测的一般概念是将它与边缘、平坦或其他特殊的图像区域区分开来。传统的角点搜索可以采用不同的策略,即基于梯度、基于亮度和基于轮廓曲率的策略。详见Zitova和Flusser (2003),Li等(2015),Tuytelaars和Mikolajczyk (2008)和Rosten等(2010)。

2.2.1 基于梯度的检测器(Gradient-Based Detectors)

基于梯度的角点响应倾向于使用图像中的一阶信息来区分角点特征。最早的自动角点检测方法可以追溯到Moravec检测器 (moravec,1977),它首先引入了“兴趣点”的概念来定义不同的特征点,这些特征点是根据局部强度的自相关性提取的。该方法从八个方向的移动窗口中计算和搜索每个像素的最小亮度变化,如果最小值优于给定的阈值,则检测到兴趣点。

然而,由于不连续的比较方向和大小,Moravec检测器对于方向或图像旋转不是不变的。著名的Harris角点检测器(Harris et al. 1988)被引入以解决各向异性和计算复杂性问题。Harris方法的目标是使用二阶矩矩阵或自相关矩阵找到最快和最低灰度值变化的方向;因此,它具有方位和光照不变性,并具有可靠的可重复性和可识别性。Shi和Tomasi (1993)对Harris进行了进一步改进,通过使特征更“分散”和定位更精确来获得更好的跟踪性能。

2.2.2 基于密度的检测器(Intensity-Based Detectors)

已经提出了几种基于模板或强度比较的角点检测器,通过将周围像素的强度与中心像素的强度进行比较来简化图像梯度计算。由于它们的二进制性质,它们被广泛用于许多现代应用中,尤其是一些具有存储和实时要求的应用。

基于强度的角点检测器,即最小单值段同化核(smallest uni-value segment assimilating nucleus,SUSAN) (Smith和Brady,1997),是基于局部半径区域像素和核之间的亮度相似性。SUSAN可以快速实现,因为它不需要梯度计算。基于亮度比较的概念,已经提出了许多类似的方法,其中最著名的是快速检测器(Trajkovic and Hedley,1998)。FAST使用沿着圆形图案的每个像素与中心像素的二进制比较,然后使用机器学习(即ID3 tree Quinlan,1986)策略来确定更可靠的角特征,该策略在大量相似的场景图像上进行训练,并且可以生成用于角选择的最佳标准。

FAST作为SUSAN的改进,效率极高,重复性高,使用范围更广。为了在不损失效率的情况下提高FAST,引入了FAST-ER (Rosten等,2010),在进一步以核为中心的像素强度比较的基础上,通过泛化检测器来提高重复性。另一个改进是AGAST (Mair et al. 2010),其中定义了两个更多的像素亮度比较标准,然后在扩展的配置空间中对优化和特殊化决策树进行筛选,从而使FAST探测器更具通用性和自适应。

为了结合FAST的高效性和Harris检测器的可靠性,Rublee等(2011)提出了一种用于匹配的集成特征检测器和描述符,称为ORB。ORB使用Harris响应选择一定数量的FAST角作为最终检测到的特征。将局部块的灰度质心和中心像素本身构成一个向量,表示ORB特征的主方向,有助于计算ORB中二进制描述符的相似性。最近,有人提出了一种类似Sadder的检测器(Aldana-Iuit et al. 2016)来提取兴趣点。在该探测器中,通过对具有一定几何约束的两个同心环进行强度比较,有效地验证了sadder条件。Sadder检测器可以实现更高的重复性和更大的分布,超过了传统方法,甚至是现代可训练的方法(Komorowski等人,2018)。

2.2.3 基于曲率的检测器(Curvature-Based Detector)

一种用于角点特征提取的策略是基于检测到的高阶图像结构,例如边缘、轮廓和显著区域。角特征可以定义为边缘或轮廓的中点/端点、或者边缘或轮廓的稀疏采样(Belongie等人,2002)。它们随后用于形状匹配或点配准,特别是用于纹理或二进制型较少的图像对。基于曲率的策略是根据检测到的图像类曲线边缘提取曲率最大的角点。该策略从边缘提取和选择方法开始,接下来的两个步骤是曲线平滑和曲率估计。最后通过选取曲率极值点来确定拐角。通常,基于轮廓曲率的角点检测首先需要边缘检测器。

在曲线平滑过程中,由于曲线点的量子化位置,斜率和曲率难以计算。曲线中的噪声和局部变形也会严重影响特征的稳定性和显著性。因此,在曲率计算之前或计算过程中,应采用平滑方法,使曲率极值点与其他曲线点更明显。平滑一般采用直接平滑和间接平滑两种策略。直接平滑,如高斯平滑(Mokhtarian和Suomela 1998; Pinheiro and Ghanbari 2010),去除噪声,并可能在一定程度上改变曲线位置。相比之下,在间接平滑策略中,如支持区域法或基于弦长的方法(Ramer 1972;Awrangjeb and Lu 2008),可以保留曲线点的位置。

对于曲率估计,对于平滑曲线的每一点,都需要一个显著性响应度量来进行角搜索,即曲率。曲率估计方法一般也分为直接估计和间接估计。前者是基于代数或几何估计,如余弦,局部曲率和切向偏转(Mokhtarian和Suomela,1998; Rosenfeld and Weszka,1975;Pinheiro and Ghanbari,2010)。后者以间接的方式估计曲率,经常被用作显著性度量,例如通过沿着曲线的几个移动矩形来计算曲线点的数量(Masood和Sarfraz,2007),使用从连接曲线两个端点的弦到曲线点的垂直距离(Ramer 1972),以及其他替代方法(Zhang et al,2010, 2015)。与间接估计方法相比,直接估计方法由于较少考虑邻近点,对噪声和局部变化更敏感。

最后,可以用阈值策略确定角点,以去除虚假和模糊点(Mokhtarian和Suomela,1998;Awrangjeb and Lu,2008)。其他细节可以从基于轮廓曲率的拐角测量中获得(Awrangjeb等,2012)。此外,最近提出了一种基于多尺度分割的角点检测器,命名为MSFD (Mustafa et al 2018),用于宽基线场景匹配和重建。MSFD中的特征点通过使用现成的分割方法在三个或多个区域边界的交集处检测。MSFD可以生成丰富而准确的角点特征,用于宽基线图像匹配和高重建性能。

上述角点特征检测器很容易在图像的轮廓或边缘结构中定位(即不是这种分散或不均匀的分布),并且受到两幅图像之间的尺度和仿射变换的限制。在这三种角点检测策略中,基于梯度的方法定位精度更高,而基于强度的方法效率更高。基于轮廓曲率的方法需要更多的计算量,但它是处理无纹理或二值图像(如红外和医学图像)的更好选择,因为基于图像线索的特征描述子不适用于这些类型的图像,而基于点的描述子通常耦合用于匹配任务(即点集配准或形状匹配)。详情请参阅第3及4节。

2.3 斑点特征(Blob Feature)

斑点特征通常表示为一个局部封闭区域(例如,具有规则的圆形或椭圆形状),其中像素被认为彼此相似,而与周围的邻域不同。斑点特征可以写成(x, y, θ)的形式,(x, y)是特征位置的像素坐标,θ表示特征的斑点形状信息,包括尺度和/或仿射。在过去的几十年里,大量的斑点特征探测器已经被提出,它们可以大致分为基于二阶偏导数和基于区域分割的检测器。基于二阶偏导数的方法是基于拉普拉斯尺度选择和/或Hessian矩阵计算的仿射不变量。而基于分割的方法更倾向于先分割形态区域来检测斑点特征,然后用椭圆拟合来估计仿射信息。与角点特征相比,blob特征更适用于对精度要求较高的视觉应用,因为它利用了更多的图像线索进行特征识别和表示,从而使blob特征对图像变换更加准确和鲁棒。

2.3.1 基于二阶偏导检测器(Second-Order Partial Derivative-Based Detectors)

在基于二阶偏导数的方法中,高斯拉普拉斯函数(Laplacian of Gaussian, LoG) 被应用于基于尺度空间理论(Lindeberg 1998)。这里,首先根据图像二阶微分中的零点交叉使用拉普拉斯算子进行边缘检测,然后使用高斯卷积滤波进行预处理以降低噪声。

LoG可以检测局部极值点和高斯核圆对称性引起的归一化响应区域。通过在多尺度空间中搜索极值,高斯函数的不同标准差可以作为最终稳定的斑点特征来检测不同尺度下的尺度不变斑点。高斯差分(difference of Gaussian, DoG)(Lowe et al 1999;Lo w e 2004)滤波器可以近似LoG滤波器,大大加快了计算速度。另一种经典的斑点特征检测策略是基于Hessian的行列式(determinant of Hessian, DoH)(Mikolajczyk和Schmid 2001,2004)。这更具有仿射不变性,因为第二个矩阵的特征值和特征向量可以用于估计和修正仿射区域。

通过使用DoG、DoH和两者的兴趣点检测在最近的视觉得到了广泛的应用。著名的SIFT(Lowe et al 1999;L o w e 2004)提取关键点作为DoG金字塔中的局部极值,使用局部强度值的Hessian矩阵进行过滤(相应的描述部分将在下一节中进行介绍)。Mikolajczyk等人将Harris和Hessian检测器与拉普拉斯和Hessian矩阵相结合,用于尺度和仿射特征检测(Mikolajcczyk和Schmid 20012004),即Harris/Hessian-拉普拉斯/仿射。SURF(Bay等人,2006)通过使用Haar小波计算和积分图像策略逼近基于Hessian矩阵的检测器,从而简化了二阶微分模板的构造,从而加速了SIFT。

为了在后续应用中获得更好的性能,人们陆续提出了基于SIFT和SURF的改进方案。这些改进包括一个全仿射不变SIFT检测器(ASIFT) (Morel和Yu 2009),一个中心环绕极值(Agrawal等2008)策略特征检测器(通过提出的双边滤波近似拉普拉斯计算)来提高效率,以及在DARTs中使用分段三角形滤波器高效逼近DoH (Marimon等2010)。此外,在SIFT-ER检测器中使用余弦调制高斯滤波器(Mainali et al 2013),以获得具有最小尺度空间定位误差的高特征可检测性,其中滤波器组系统具有高度精确的滤波器近似,无需任何图像子/上采样。基于边缘焦点的斑点检测器(Zitnick and Ramnath 2011)也被引入用于匹配任务。在该检测器中,边缘焦点被定义为图像中与最近的边缘大致等距离的点,其方向垂直于该点。

与类圆高斯响应函数不同,KAZA检测器采用非线性偏微分方程,利用非线性扩散滤波进行斑点特征搜索(Alcantarilla et al 2012)。一个名为AKAZA (Alcantarilla and Solutions 2011)的加速版本是通过在金字塔框架中嵌入快速显式扩散来实现的,从而极大地加快非线性尺度空间中的特征检测。但是,它仍然存在计算复杂度较高的问题。另一种方法是WADE (Salti et al 2013),通过波传播函数实现非线性特征检测。

2.3.2 基于分割的检测器(Segmentation-Based Detectors)

基于分割的斑点探测器开始于基于恒定像素强度或零梯度的不规则区域分割。最著名的基于区域分割的斑点特征之一是最大稳定极值区域(MSER) (Matas et al 2004)。它提取出在大范围强度阈值下保持稳定的区域。该方法不需要额外的尺度估计处理,对较大的视点变化具有鲁棒性。“最大稳定”一词描述了阈值选择过程,假定每个极值区域都是通过阈值分割的分水岭图像的连接组件。Kimmel等人(2011)引入了MSER的扩展,以利用形状结构线索。其他改进是基于主曲率图像的分水岭区域(Deng et al 2007;Ferraz和Binefa 2012)或为了更高的区分度而考虑的颜色信息(Forssén 2007)。

与MSER类似,其他基于分割的特征,例如基于强度和边缘的区域(Tuytelaars和V an Gool 2004)也用于仿射协变区域检测。然而,这种类型的特征检测很少用于特征匹配,并且逐渐向计算机视觉中的显著性检测和分割发展。Mikolajczyk等人(2005)和Li等人(2015)中提供了具体的方法调查和综合审查。

2.4 可学习的特征(Learned Features)

近年来,基于数据驱动学习的方法在一般视觉模式识别任务中取得了重大进展,并已应用于图像特征检测。这条管道大致可以分为经典学习和深度学习。

2.4.1 基于传统学习的检测器(Classical Learned-Based Detectors)

早在过去十年中,传统的基于学习的方法,如决策树、支持向量机(SVM)和其他与深度学习相反的分类器,已经用于人工关键点检测(Trajkovi´c和Hedley 1998;Strecha等人2009;Hartmann等,2014; Richardson和Olson 2013)。FAST(Trajkovi´c和Hedley 1998)检测器是首次尝试使用传统学习进行可靠和可匹配的点识别,类似的策略已应用于许多后续改进中(Mair等人,2010年;Rublee等人,2011年)。Strecha等人(2009)训练Wald-Boost分类器在预对齐训练集上学习具有高重复性的关键点。

最近,Hartmann等人(2014)表明,可以从运动结构(structure-from-motion,SfM)流程中学习预测哪些候选点是可匹配的,从而显著减少了兴趣点的数量,而不会丢失过多的真实匹配。同时,Richardson和Olson(2013)报告称,人工设计的检测器可以通过卷积滤波器空间中的随机采样来学习,并尝试使用频域约束上的学习策略来找到最佳滤波器。然而,传统学习仅用于通过分类器学习进行可靠的特征选择,而不是直接从原始图像中提取兴趣特征,直到深度学习的出现。

2.4.2 基于深度学习的检测器(Deep Learned-Based Detectors)

在人工制作的特征检测器的启发下,基于CNN的检测的一般解决方案是构建响应图,以监督(Yi et al 2016;V erdie et al 2015;Zhang et al 2017b)、自监督(Zhang和Rusinkiewicz 2018;DeTone et al 2018)或无监督的方式(Lenc和V edaldi 2016;Savinov et al,2017; Ono等人2018;Georgakis等人2018;Barroso Laguna等人2019)。该任务通常被转换为一个回归问题,该问题可以在变换和成像条件不变性约束下以可微的方式进行训练。监督方法显示了使用anchor(例如,从SIFT方法获得的anchor)来指导其训练的益处,因为anchor本身本质上难以合理定义,并且如果附近不存在anchor,可能会阻止网络提议新的关键点(Barroso Laguna等人2019)。自监督和无监督方法训练检测器而不需要任何人类注释,并且只需要两个图像之间的几何约束来进行优化指导;有时需要简单的人工辅助进行预训练(DeTone等人,2018)。此外,许多方法通过与特征描述和匹配联合训练,将特征检测集成到整个匹配流程中(Yi等人,2016;DeTone等人,2018;Ono等人,2018;Shen等,2019; Dusmanu等,2019;Choy等,2016年;Rocco等,2018; Dusmanu等,2019;Revaud等,2019),这可以增强最终匹配性能并以端到端的方式优化整个过程。

例如,TILDE(Verdie等,2015)训练多个分段线性回归模型,以在天气和照明条件的剧烈成像变化下检测可重复的关键点。首先,它在使用DoG进行训练集收集的同一视点拍摄的多个训练图像中识别出好的关键点候选,然后训练一般回归器来预测得分图,在经过非极大值抑制NMS后,其最大值可以被视为期望的兴趣点。

DetNet(Lenc和Vedaldi,2016)是学习局部协变特征的第一个完全通用的范式;它将检测任务转换为回归问题,然后导出协方差约束,以自动学习用于几何变换下的局部特征检测的稳定锚点。同时,Quad-net(Savinov等,2017)使用单个实值响应函数实现了变换不变分位数排序下的关键点检测,使其能够通过优化可重复排序从零开始完全学习检测器。Zhang和Rusinkiewicz(2018)中的一个类似检测器将这种“排名”损失与“峰值”损失相结合,产生了一个更可重复的检测器。

Zhang等人(2017b)通过基于“标准块”和“规范特征”的新概念定义一个新的范式,提出了TCDET检测器,以同等重视区分性和协变约束。所提出的检测器可以在不同的图像变换下检测辨别和可重复的特征。Key.Net(BarrosoLaguna等,2019)在浅层多尺度架构中结合了人工设计和学习的CNN滤波器,并提出了一种轻型/高效可训练检测器。手工设计的过滤器提供了anchor结构,用于定位、评分和排序可重复的特征,这些特征被反馈给学习滤波器。CNN被用于通过检测不同级别的关键点来表示尺度空间;损失函数被定义为从不同尺度检测鲁棒特征点并最大化重复性得分。Mishkin等(2017,2018)也使用神经网络学习基于仿射区域的兴趣点。

将检测器集成到匹配pipeline中的方法与上述提到单独设计的检测器方法相似。主要的区别可能在于训练的方式,而核心挑战是使整个过程与众不同。例如,Yi等(2016)试图基于输入四个patch来联合训练检测器、方向估计器和描述符。他们提出的LIFT可被视为SIFT的可训练版本,需要SfM系统的监督来确定特征anchor。训练过程是从描述符到检测器单独进行的,可以使用学习的结果来指导检测器训练,从而提高可检测性。与LIFT不同,SuperPoint(DeTone等,2018)提出了一个全卷积模型,其通过输入全尺寸图像并在一次前向扫描中联合计算像素级兴趣点位置和相关描述符;构建了一个用于伪真实生成和预训练的合成数据集,并且,单应性自适应模块使其能够在提高检测重复性的同时实现自监督训练。

LF-Net(Ono等,2018)将端到端pipeline限制在一个分支,以可区分的方式优化整个过程;它还使用对全尺寸图像进行操作的全卷积网络来生成丰富的特征分数图,然后可以使用该图提取关键点位置和特征属性,例如比例和方向;同时,它执行NMS的可微分形式,即soft targmax,用于子像素定位,并提高关键点的准确性和显著性。与LF-Net类似,RF-Net(Shen等,2019)在多尺度上选择高响应像素作为关键点,但响应图是由感知特征图构建的。Bhowmik等人(2020)指出,这些低级匹配分数的准确性提高不一定会提高高级视觉任务的性能,因此他们将特征检测器嵌入到完整的视觉pipeline线中,其中以端到端的方式训练可学习参数。他们利用强化学习的原理克服了关键点选择和描述符匹配的离散性。Luo等人(2020)提出了ASFeat,通过联合学习局部特征检测器和描述符来探索特征点的局部形状信息,并提高点检测的准确性。另一种与检测相关的基于学习的方法是方向估计(Moo Yi等人,2016),而空间变换网络(STN)(Jaderberg等人,2015)也可以作为基于旋转不变性的深度学习检测器的重要参考(Yi等,2016; Ono,2018)。

与局部特征描述符不同,对显著特征检测器的综述很少,尤其是最近基于神经网络的技术。据我们所知,最近的综述(Lenc和V edaldi,2014)侧重于局部特征检测。它介绍了几种众所周知的方法的基本思想,从手工设计的检测器到加速学习的检测器。

2.5 3D特征检测器(3-D Feature Detectors)

Tombari等人(2013)致力于三维关键点探测器,对最先进的方法进行了出色的综述,并对其性能进行了详细评估。简而言之,现有的方法分为两类,固定尺度检测器和自适应尺度检测器。在这两个类中,关键点被选择为预定义显著性测量的局部极值。不同之处在于涉及了尺度特征,这定义了对后续描述阶段的支持。固定标度检测器倾向于搜索特定尺度级别的关键点,这是作为先验信息给出的。自适应尺度检测器或者通过采用在表面上定义的尺度空间来扩展2-D图像的尺度概念,或者通过将3-D数据嵌入2-D平面来实现传统的尺度空间分析。

2.5.1 固定尺度检测器(Fixed-Scale Detectors)

Chen和Bhanu(2007)介绍了局部表面patch(local surface patch,LSP)方法。LSP中一个点的显著性通过其形状指数(Dorai和Jain 1997)来衡量,该指数由该点的主曲率定义。Zhong(2009)提出了内在形状特征(intrinsic shape signature,ISS)方法,其中显著性是从支持区域散射矩阵的特征值分解得到的。在这种方法中,使用特征值的比率来剔除一些点,并且最终的显著性由特征向量确定。通过这种方式,识别出沿每个主方向具有较大变化的点。与ISS类似,Mian等人(2010)也使用散射矩阵来剔除非连续点,但使用不同的基于曲率的显著性测量。Sun等人(2009)提出了基于形状上热扩散过程特性的热核特征(heat kernel signature,HKS)方法。在该方法中,通过将热核限制在时域来定义显著性测量。热核是由底层流形唯一决定的,这使得HKS具有形状的紧凑特性。

2.5.2 自适应尺度检测器(Adaptive-Scale Detectors)

人们通常期望自适应地与检测中的尺度相匹配。Unnikrishnan和Hebert(2008)提出了一个拉普拉斯-贝尔特拉米(Laplace-Beltrami)尺度空间,通过计算每个点周围的增加支持上的设计函数。该函数由一个新的算子定义,该算子反映基础形状的局部平均曲率并提供显著性信息。Zaharescu等人(2009)提出了MeshDoG方法,该方法类似于二维情况下的DoG算子(Lowe 2004);尽管如此,该算子是定义与流行上的标量函数上计算的。DoG算子的输出表示关键点检测的显著性。Castellani等人(2008)也使用DoG算子,但直接在三维网格上构建了比例空间。Mian等人(2010)提出了一种用于提取尺度不变特征的自动尺度选择技术。尺度空间是通过增加支持尺寸建立的,在每个关键点上的自动尺度选择是通过使用NMS沿尺度进行的。Bronstein和Kokkinos(2010)解决了HKS对尺度敏感的缺点,他们使用傅里叶变换幅度从HKS中提取一个尺度不变的量,而不需要进行尺度选择。Sipiran和Bustos(2011)将著名的Harris算子(1988)用自适应尺度确定技术扩展到3-D数据。读者可以参考Tombari等人(2013)对其他自适应尺度检测器的进一步讨论。Salti等人(2015)设计了一个基于学习的三维关键点检测器,据此,关键点检测问题被投射为一个二元分类问题,以确定谁的支持可以被预定的三维描述符正确匹配。

2.6 总结(Summary)

特征检测器的基本思想是通过响应值将感兴趣的特征与其他特征区分开来,从而导致两个问题的解决方案:(i)如何定义图像中的判别模式,以及(ii)如何在不同的图像条件和图像质量下重复检测显著特征(Zhang等,2017b)。随着这些检测器的发展,主要的改进和常见策略与四个方面有关,即特征响应类型和效率、鲁棒性和准确性的改进,这导致检测到的特征的匹配性增加,并提高其后续应用的性能。

对于传统方法,使用更多的图像线索可以获得更好的鲁棒性和可重复性,但通常需要更多的计算成本。除了使用低阶特征检测器之外,还设计了一些策略,例如近似和预计算,以大大加快计算速度并保持匹配性。为了确保鲁棒性,在搜索稳定特征时通常需要尺度和仿射信息估计。而为了提高精度,在传统pipeline中,对亚像素精度的局部极值搜索和在像素和尺度空间中的NMS策略以避免局部聚集的特征是两种流行的选择。

对于基于学习的检测器,除了强度、梯度或二阶导数之外,可以基于由神经网络捕获的高级线索来提取可重复和显著的关键点。虽然效率在很大程度上取决于网络结构,但早期的深度学习方法往往耗时。最近提出的方法,如SuperPoint和Key.Net已经实现了良好的实时性,同时保持了最先进的性能。多尺度采样或改变的感受野将使这些基于深度学习的检测器对尺度保持不变,其中尺度或旋转信息在网络中直接估计。他们可以获得有希望的结果,因为深度学习技术可以很容易地区分相同的结构,尽管图像存在明显的差异和几何变换。精度可以直接在基于学习的方法的损失函数中优化,NMS的可微分形式通常用于亚像素精度定位和重复性增强。

你可能感兴趣的:(图像匹配,人工智能,算法,深度学习)