尺度不变换特征变换(Scale invariant feature Transform,SIFT)(Lowe,1999,2004)[1],[2]的目标是解决低层次特征提取及其图像匹配应用中的许多实际问题。
关于SIFT算法,2004年David Lowe发表在Int. Journal of Computer Vision的经典论文[2]中,对尺度空间(scale space)是这样定义。
It has been shown by Koenderink (1984) and Lindeberg (1994) that under a variety of reasonable assumptions the only possible scale-space kernel is the Gaussian function.Therefore,the scale space of an image is defined as a function L(x, y,delta) that is produced from the convolution of a variable-scale Gaussian G(x,y,delta), with an input image I(x, y).
因此,一个图像的尺度空间L(x,y,delta)定义为原始图像I (x,y)与一个可变尺度的2-D高斯函数G(x,y,delta) 卷积运算。关于图象处理中的空间域卷积运算,可以参考经典的图像处理教材(如:[5]书中,叙述了如何在离散空间进行运算的例子和说明)。而论文中 delta为希腊字母,具体地含义,请参考论文[2]所述。在此不作介绍。
SIFT算法中,提到了尺度空间,请问什么是尺度和尺度空间呢? 在上述理解的基础上,尺度就是受delta这个参数控制的表示 。而不同的L(x,y,delta)就构成了尺度空间(Space ,我理解,由于描述图像的时候,一般用连续函数比较好描述公式,所以,采用空间集合 ,空间的概念正规一些),实际上,具体计算的时候,即使连续的高斯函数,都要被离散为(一般为奇数大小)(2*k+1) (2k+1)矩阵,来和数字图像进行卷积运算。
SIFT算法主要包括两个阶段,一个是SIFT特征的生成,即从多幅图像中提取对尺度缩放、旋转、亮度变化无关的特征向量;第二阶段是SIFT特征向量的匹配。SIFT方法中的低层次特征提取是选取那些显特征,这些特征具有图像尺度(特征大小)和旋转不变性,而且对光照变化也具有一定程度的不变性。此外,SIFT方法还可以减少由遮挡、杂乱和噪声所引起的低提取概率。整个算法由以下几个部分组成。
这是一个搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。尺度空间是由一原始图像经过不同尺度的高斯模糊所得的一组图像空间定义为:
其中G(x,y,σ) 是尺度可变高斯函数
(x,y)是空间坐标,σ是尺度坐标。σ大小决定图像的平滑程度,大尺度对应图像的概貌特征,小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率),反之,对应精细尺度(高分辨率)。为了有效的在尺度空间检测到稳定的关键点,提出了高斯差分尺度空间(DOG scale-space)。利用不同尺度的高斯差分核与图像卷积生成。
高斯差分尺度空间是极值点由高斯差分尺度空间确定。而选择高斯差分尺度空间计算极值点是原因有两点;第一、为了容易计算,不同尺度空间相减即可;第二、差分尺度空间和高斯拉普拉斯函数近似相等。高斯金塔及高斯差分金字塔:对于一幅图像I,建立其在不同尺度(scale)的图像,也成为子八度(octave),这是为了scale-invariant,也就是在任何尺度都能够有对应的特征点,第一个子八度的scale为原图大小,后面每个octave为上一个octave降采样的结果,即原图的1/4(长宽分别减半),构成下一个子八度(高一层金字塔)。建立如下图所示:
由图片size决定建几个塔,每塔几层图像(S每塔层数,一般为3-5层)。0塔的第0层是原始图像(或你double后的图像),往上每一层是对其下一层进行Laplacian变换(高斯卷积,其中σ值渐大,例如可以是σ, kσ, kk*σ…),直观上看来越往上图片越模糊。塔间的图片是降采样关系,例如1塔的第0层可以由0塔的第3层down sample得到,然后进行与0塔类似的高斯卷积操作。
为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如图所示,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。一个点如果在DOG尺度空间本层以及上下两层的26个领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点。
在极值比较的过程中,每一组图像的首末两层是无法进行极值比较的,为了满足尺度变化的连续性,我们在每一组图像的顶层继续用高斯模糊生成了 3 幅图像,高斯金字塔有每组S+3层图像。DOG金字塔每组有S+2层图像.
假设s=3,即每个塔里有3层,则k=21/s=21/3,那么可得Gaussian Space和DoG Space 分别有3个(s个)和2个(s-1个)分量,在DoG Space中,1st-octave两项分别是σ,kσ; 2nd-octave两项分别是2σ,2kσ.由于无法比较极值,我们必须在高斯空间继续添加高斯模糊项,使得形成σ,kσ,k2σ,k3σ,k4σ。这样就可以选择DoG space中的中间三项kσ,k2σ,k3σ(只有左右都有才能有极值),那么下一octave中(由上一层降采样获得)所得三项即为2kσ,2k2σ,2k3σ,其首项2kσ=24/3。刚好与上一octave末项k3σ=23/3尺度变化连续起来,所以每次要在Gaussian Space添加3项,每组(塔)共S+3层图像,相应的DoG金字塔有S+2层图像。
使用LOG能够很好地找到找到图像中的兴趣点,但是计算量很大,所以使用DOG图像的极大极极小值近似寻找特征点DOG算子计算简单是尺度归一化的LOG算子的近似。
在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。通过拟和3-D二次函数以精确确定点的位置和尺度,同时去除低对比度的关键点和不稳定的边缘响应点,以增强匹配稳定性,提高噪声能力。我们对尺度空间DoG函数进行曲线拟合。利用DoG函数在尺度空间定义为:
其中:
求导,并令其为0,可以得到极值点的偏移量为:
在已经检测到的特征中,要去掉低对比度的特征点和不稳定的边缘响应点。去掉低对比度的点。把公式(2)代入公式(1),只取前两项可得为:
其中:
代表相对插值中心的偏移量,当它在任一维度上的偏移量大于0.5时(即x或y或σ),意味着插值中心已经偏移到它的邻近点上,所以必须改变当前关键点的位置。同时在新的位置上反复插值直到收敛;也有可能超出所设定的迭代次数或者超出图像边界的范围,此时这样的点应该删除,在Lowe中进行了5次迭代。另外,|D(x)|过小的点易受噪声的干扰而变得不稳定,所以将|D(x)|小于某个经验值(Lowe论文中使用0.03,Rob Hess等人实现时使用0.04/S)的极值点删除。同时,在此过程中获取特征点的精确位置(原位置加上拟合的偏移量)以及尺度(σ(o,s)和σ_oct(s))。
而对比度小的点,通过DOG所得的极值点中存在对比度小的点,若
,该特征点就保留下来,否则丢弃。由于DoG算子会产生较强的边缘响应,所以极值点中存在边缘点。因为一个定义不好的高斯差分算子的极值在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率,主曲率可以通过一个2x2的Hessian矩阵H求出:
导数由采样点相邻差估计得到。D的主曲率和H的特征值成正比,令α为较大特征值,β为较小的特征值,我们不直接求特征值,求Tr 和 行列式Det则
令α=γβ,则
(r + 1)^2/r的值在两个特征值相等的时候最小,随着r的增大而增大,因此,为了检测主曲率是否在某域值r下,只需检测
当比值为负值时直接丢弃,当 (α+β)/ αβ> (r+1)^2/r, throw it out. 在Lowe的文章中,取r=10。
基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。关键点的位置确定了,接下来我们确定关键点的尺度和方向,算出每个关键点的幅度和方向。通过尺度不变性求极值点,可以使其具有缩放不变的性质,利用关键点邻域像素的梯度方向分布特性,我们可以为每个关键点指定方向参数方向,从而使描述子对图像旋转具有不变性,我们通过求每个极值点的梯度来为极值点赋予方向。
为(x,y)处梯度的模值和方向公式。其中L 所用的尺度为每个关键点各自所在的尺度。至此,图像的关键点已经检测完毕,每个关键点有三个信息:位置,所处尺度、方向,由此可以确定一个SIFT特征区域。
梯度直方图的范围是0~360度,其中每10度一个柱,总共36个柱。随着距中心点越远的领域其对直方图的贡献也相应减小,Lowe论文中还提到要使用高斯函数对直方图进行平滑,减少突变的影响。在实际计算时,我们在以关键点为中心的邻域窗口内采样,并用直方图统计邻域像素的梯度方向。梯度直方图的范围是0~360度,其中每45度一个柱,总共8个柱, 或者每10度一个柱,总共36个柱。Lowe论文中还提到要使用高斯函数对直方图进行平滑,减少突变的影响。直方图的峰值则代表了该关键点处邻域梯度的主方向,即作为该关键点的方向。以特征点为中心取16×16的邻域作为采样窗口,将采样点与特征点的相对方向通过高斯加权后归入包含8个bin的方向直方图,最后获得4×4×8的128维特征描述子。16x16的图中其中1/4的特征点梯度方向及scale,右图为其加权到8个主方向后的效果。示意图如下:
图左部分的中央为当前关键点的位置,每个小格代表关键点邻域所在尺度空间的一个像素,利用公式求得每个像素的梯度幅值与梯度方向,箭头方向代表该像素的梯度方向,箭头长度代表梯度模值,然后用高斯窗口对其进行加权运算。图中蓝色的圈代表高斯加权的范围(越靠近关键点的像素梯度方向信息贡献越大)。然后在每4×4的小块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点,如图右部分示。此图中一个关键点由2×2共4个种子点组成,每个种子点有8个方向向量信息。这种邻域方向性信息联合的思想增强了算法抗噪声的能力,同时对于含有定位误差的特征匹配也提供了较好的容错性。
当两幅图像的Sift特征向量生成以后,下一步就可以采用关键点特征向量的欧式距离来作为两幅图像中关键点的相似性判定度量。取图1的某个关键点,通过遍历找到图像2中的距离最近的两个关键点。在这两个关键点中,如果次近距离除以最近距离小于某个阙值,则判定为一对匹配点。Lowe实验结果表明:描述子采用4×4×8=128维向量表征,综合效果最优(不变性与独特性)。计算keypoint周围的16x16的window中每一个像素的梯度,而且使用高斯下降函数降低远离中心的权重。
在每个4×4的1/16象限中,通过加权梯度值加到直方图8个方向区间中的一个,计算出一个梯度方向直方图。这样就可以对每个feature形成一个4×4×8=128维的描述子,每一维都可以表示4×4个格子中一个的scale/orientation. 将这个向量归一化之后,就进一步去除了光照的影响。
在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
首先,确定计算描述子所需的图像区域,描述子梯度方向直方图由关键点所在尺度的模糊图像计算产生。图像区域的半径通过下式计算:
然后,将坐标移至关键点主方向:
旋转后领域内采样点的新坐标为:
其次,在图像半径区域内对每个像素点求其梯度幅值和方向,然后对每个梯度幅值乘以高斯权重参数,生成方向直方图。
在窗口宽度为2×2的区域内计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值,即可形成一个种子点。然后再在下一个2×2的区域内进行直方图统计,形成下一个种子点,共生成16个种子点。
最后,描述子向量元素门限化及门限化后的描述子向量规范化。根据特征点的尺度对特征描述向量进行排序,SIFT特征向量生成。
Flags设置为DRAW_MATCHES_FLAGS_DRAW_RICH_KEYPOINTS.
1.尺度空间理论
尺度空间理论目的是模拟图像数据的多尺度特征。其基本思想是在视觉信息图像信息处理模型中引入一个被视为尺度的参数, 通过连续变化尺度参数获得不同尺度下的视觉处理信息, 然后综合这些信息以深入地挖掘图像的本质特征。
2. 局部特征提取算法sift
SIFT算法由D.G.Lowe 1999年提出,2004年完善总结。后来Y.Ke将其描述子部分用PCA代替直方图的方式,对其进行改进。SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量。SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性。独特性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配。多量性,即使少数的几个物体也可以产生大量SIFT特征向量。可扩展性,可以很方便的与其他形式的特征向量进行联合。
3. 什么是局部特征?
局部特征从总体上说是图像或在视觉领域中一些有别于其周围的地方。局部特征通常是描述一块区域,使其能具有高可区分度。局部特征的好坏直接会决定着后面分类、识别是否会得到一个好的结果。局部特征需具备的特性:重复性、可区分性、准确性、数量以及效率、不变性。
4. 描述子生成的细节
以极值点为中心点,并且以此点所处于的高斯尺度sigma值作为半径因子。对于远离中心点的梯度值降低对其所处区域的直方图的贡献,防止一些突变的影响。每个极值点对其进行三线性插值,这样可以把此极值点的贡献均衡的分到直方图中相邻的柱子上
5. PCA-SIFT算法
PCA-SIFT与标准SIFT有相同的亚像素位置,尺度和主方向。但在第4步计算描述子的设计,采用的主成分分析的技术。其特征描述子计算的部分:用特征点周围的41×41的像斑计算它的主元,并用PCA-SIFT将原来的2×39×39维的向量降成20维,以达到更精确的表示方式。它的主要步骤为,对每一个关键点:在关键点周围提取一个41×41的像斑于给定的尺度,旋转到它的主方向 ;计算39×39水平和垂直的梯度,形成一个大小为3042的矢量;用预先计算好的投影矩阵n×3042与此矢量相乘;这样生成一个大小为n的PCA-SIFT描述子。
6.归一化处理
在求出448的128维特征向量后,此时SIFT特征向量已经去除了尺度变化、旋转等几何变形因素的影响。而图像的对比度变化相当于每个像素点乘上一个因子,光照变化是每个像素点加上一个值,但这些对图像归一化的梯度没有影响。因此将特征向量的长度归一化,则可以进一步去除光照变化的影响。对于一些非线性的光照变化,SIFT并不具备不变性,但由于这类变化影响的主要是梯度的幅值变化,对梯度的方向影响较小,因此作者通过限制梯度幅值的值来减少这类变化造成的影响。
[1] David G. Lowe,“Object recognition from local scale-invariant features,” International Conference on Computer Vision,Corfu, Greece (September 1999), pp. 1150-115.
[2] David G. Lowe,"Distinctive image features from scale-invariant keypoints,"International Journal of Computer Vision, 60, 2 (2004), pp. 91-110.
[3] Scale invariant feature Transform From Wikipedia, the free encyclopedia.
[4] Demo Software:SIFT Keypoint Detctor.
[5] Rafael C.Gonzalez, Rechard E.Woods at. el , “Digital Image Processing Using MatLab (Second Edition)”,Gatesamark Publishing.
[1] SIFT: Scale Invariant Feature Transform .
[2] Scale Invariant Feature Transform Form www. scholarpedia.org.
[3] C语言版源代码 Scale Invariant Feature Transform(SIFT).