学习SIFT算法过程中的释疑

介绍SIFT算法的文章

David G. Lowe, "Distinctive image features from scale-invariant keypoints,"International Journal of Computer Vision, 60, 2 (2004), pp. 91-110

文章一开始就给出了sift特征的关键步骤:

1. 利用尺度空间,检测极值点

2. 对极值点(关键点)精确定位,以及剔除一些不好的特征点

3. 对关键点生成方向参数

4. 生成关键点的特征描述符


一开始接触SIFT算法,在这些步骤中,还有很多不理解的地方,看了原文和一些blog,才有点感觉,这里总结下这个过程中的疑问和答案。


1. 一些基本概念

2. 为什么是DOG算子,Gaussian算子,为什么不是LOG算子? 

3. 为什么原图像有时长宽扩大一倍?为什么需要高斯金字塔的降采样,形成octave的形式?

4. 多尺度是指哪些?

5. 什么是octave?

6. 空间尺度的连续性怎么理解?

7. 对旋转不变性、亮度变化不变性体现在什么地方?


参考的一些blog,写的真不错:

http://blog.csdn.net/sunminmin2011/article/details/8130090

http://wenku.baidu.com/view/dc5fffec102de2bd9605886e.html

http://www.360doc.com/content/11/1230/23/3054335_176200661.shtml

http://blog.csdn.net/abcjennifer/article/details/7639681

有关特征的一些概念:

图像的变化形式: 旋转、尺度变换、仿射变换、视角变换、光照变化等。

不变量:     同一场景下,图像有些变化,但图像中仍有保持稳定不变的特征,对这些特征的描述,就称为不变量

尺度不变量: 图像尺度有变化时,那些不变的特征就称为尺度不变量

旋转不变量: 图像旋转时,那些不变的特征就称为旋转不变量

常用的图像特征: 角点(局部极值点)、边缘、轮廓

稳定的特征向量: 将多种特征组合、变换,形成稳定的特征向量,即不受图像尺度、旋转等变换的影响。

多尺度下的极值点:一般来说,测试一点是否是极值点,就是比较此点与周围的点,当此点比周围的点都大时,其就是极值点;但多尺度下的极值点,不仅要求此点在原图上是极值点,还要求其比其他尺度空间的同范围的点值都大。这个性质就是尺度不变量,这个是定义。

特征描述子(符):拿到特征点后,利用特征点及其邻域的信息,如梯度等,转化为一个数值向量,最好与特征点的位置,scale等空间特征无关。这个数值向量形成了特征空间。无论特征点的空间位置及其他环境如何变化,特征空间对其的描述表示,保持稳定。

-------------------

1. 基础知识:尺度空间理解

一般的尺度变换理解:

尺度,首先从信号处理来理解这个概念,对信号的尺度变换,就对信号进行缩放,比如对时域扩展,频域就收缩 !!!-_-, 要复习信号的一些知识。

对图像的尺度变换的形式: 一种就是将图像直接缩放成不同的大小。常见金字塔抽样,就是这种尺度变换的一种。

其他尺度变换的形式:

高斯尺度变换

小波变换

以及更泛化的 多分辨率尺度变换

http://blog.csdn.net/tanxinwhu/article/details/7048370 尺度空间理解介绍


2. 为什么是DOG算子,Gaussian算子,为什么不是LOG算子? 

DOG/LOG算子就是借助高斯尺度变换的特征。确切的说应该是LOG特征,Mikolajczyk发现LOG的极值点(极大值和极小值)比梯度(一阶导数),Hessian(二阶导数矩阵),及harris角点具有更稳定的特征。而DOG具有近似LOG的性质,且比LOG的运算效率更高。

Gaussian滤波器,压制高频信息,而DOG算子在Gaussian滤波器压制高频的基础上,又压制了低频的区域,形成一个带通滤波器。带通,指指定频带通过,在空域上,表现为指定尺度的细节图像保留下来。这个要比普通的高频锐化算法 检测细节的效果好,因为高频锐化不仅增强了细节,还增强了高频噪声。图像增强时,DOG算法中两个高斯核的半径之比通常为4:1或5:1。

    DOG算子如何简化计算?

    而与LOG算子比较,DOG算子其尺度变化更自由,当高斯核半径比为1:1.6时,才是LOG算子的近似。

    DOG算子具有LOG归一化的近似的性质,计算更方便、速度更快,所以采用DOG算子。


3. 为什么原图像有时长宽扩大一倍?

有时采用双线性插值扩大一倍,目的同高斯金字塔降采样一样,是为了scale上扩大采集特征点的范围,以实用多尺度scale的匹配


有了高斯尺度空间,大的标准差对应图像概貌,提取云朵之类的低频特征比较丰富的特征点,小的标准差对应图像细节,提取高频细节比较丰富的特征点,为什么还需要高斯金字塔的降采样,形成octave的形式?

应该是为了达到图像匹配时,有尺度缩放不变性的能力。形成了关键点的坐标(scale, x, y)三维空间的形式。尺度不变性,其实就是具有提取多尺度的特征,以适应各种尺度的场景。


4. 多尺度是指哪些?

1. 高斯系数的变化:  在图像大小不变的情况下,改变高斯函数标准差的大小,其比例系数1, k, k^2,... , k^n

2. 空间分辨率的变化: 金字塔式抽样,改变图像大小,对图像进行间隔抽样,或者双线性插值抽样。

如下图:

学习SIFT算法过程中的释疑_第1张图片


5. 什么是octave?

octave不一定就是高斯系数变化从1到 K^7,得到八个图像,一般不需要这么多,3-5个处理层次就可以了。每一级空间抽样(空间分辨率变化)都会有自己独立的octave高斯尺度处理。这样原文里的scale图示就比较好理解了。

学习SIFT算法过程中的释疑_第2张图片


6. 空间尺度的连续性怎么理解?

每相邻两个octave之间的序列 高斯函数有一定联系。

如octave1,其序列高斯函数为 1, k, k^2,... , k^n, octave2 高斯序列函数为 2*1,2 * k, 2 * k^2,... ,2 * k^n.

由于取k = 2^(1/s), octave1中第s层的高斯函数,就等于octave2中的第一层的高斯函数。从这个层面上,高斯空间尺度就连起来了。

其好处是什么? 应该是针对特征点的选取,尺度空间连续,那么如特征点的选取,在不同尺度就不会有遗漏。若值选取一个最大尺度,和一个最小尺度, 那么就只会选取出最大尺度的特征点,以及最细节的特征点,而中间尺度的细节特征点就没选取到,这就是尺度空间不连续造成的。个人理解。

而空间分辨率上,降采样还是要做的,即octave1与octave2即使部分序列的高斯函数一样,但其图像的大小还是不同的。


7. 对旋转不变性体现在什么地方?

特征点是依赖于位置信息的,所以也隐含着角度旋转的信息。要除去旋转角度信息的依赖性,就是设计一种旋转不变的特征描述子。

一般特征点附近的 梯度 方向,加上特征点的位置,尺度,都是特征点的信息。将这些信息转换为方向无关的信息。

计算特征点的方向,然后将坐标轴旋转为特征点的方向,这样就保证了以后的计算与方向无关了。

计算出这个特征点的16*16邻域的所有点的梯度和方向。再划分为4*4的小窗口,计算每个小窗口的8个主方向(将每个方向上的梯度值累加),形成4*4*8=128的描述子。文章里介绍的更清楚。


对亮度变化不变性体现在什么地方?

对上述描述子,进行归一化,这样就降低了亮度变化的不变性。


什么样的点是不好的特征点?为什么?

去除低对比度的关键点和不稳定的边缘响应点。

对于特征对比度,给定一个阈值,只有大于这个阈值才保留。

而对于边缘响应,通过hessien矩阵来计算其主曲率。将主曲率大的响应点去除。对于边缘响应点,其曲率也是比较大的。

你可能感兴趣的:(学习SIFT算法过程中的释疑)