目录
一、SIFT介绍
二、SIFT特点
三、尺度空间
四、高斯金字塔
五、DOG空间极值检测
六、关键点方向分配、描述和匹配
1.关键点方向分配
2.关键点描述
3.关键点匹配
七、SIFT实现与分析
1.SIFT特征检测
1.1算法步骤
1.2算法实现
2.SIFT特征匹配
2.1算法步骤
2.2算法实现
3.数据集内检索匹配
4.地理标记图像匹配
4.1代码实现:
4.2结果及分析:
4.3错误
5.RANSAC图像拼接
5.1代码实现
5.2结果与分析
八、总结
九、错误
SIFT,即尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。
1.SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;
2. 区分性好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;
3. 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;
4.高速性,经优化的SIFT匹配算法甚至可以达到实时的要求;
5.可扩展性,可以很方便的与其他形式的特征向量进行联合。
在一定的范围内,无论物体是大还是小,人眼都可以分辨出来。然而计算机要有相同的能力却不是那么的容易,在未知的场景中,计算机视觉并不能提供物体的尺度大小,其中的一种方法是把物体不同尺度下的图像都提供给机器,让机器能够对物体在不同的尺度下有一个统一的认知。在建立统一认知的过程中,要考虑的就是在图像在不同的尺度下都存在的特征点。
而尺度空间的基本思想是:在图像信息处理模型中引入一个被视为尺度的参数,通过连续变化尺度参数获得多尺度下的尺度空间表示序列,对这些序列进行尺度空间主轮廓的提取,并以该主轮廓作为一种特征向量,实现边缘、角点检测和不同分辨率上的特征提取等。
尺度空间中各尺度图像的模糊程度逐渐变大,能够模拟人在距离目标由近到远时目标在视网膜上的形成过程。要使得图像具有尺度空间不变形,就要建立尺度空间。
一个图像的尺度空间,定义为一个变化尺度的高斯函数与原图像的卷积。
其中*表示卷积运算,(x, y)代表图像的像素位置,尺度空间因子,值越小表示图像被平滑的越少,相应的尺度也就越小。大尺度对应于图像的概貌特征,小尺度对应于图像的细节特征。
尺度空间在实现时使用高斯金字塔表示,高斯金字塔的构建分为两部分:
(1)对图像做不同尺度的高斯模糊;
(2)对图像做降采样(隔点采样)
图像的金字塔模型是指,将原始图像不断降阶采样,得到一系列大小不一的图像,由大到小,从下到上构成的塔状模型。原图像为金字塔的第一层,每次降采样所得到的新图像为金字塔的一层(每层一张图像),每个金字塔的具体层数根据图像的原始大小和塔顶图像的大小共同决定。为了让尺度体现其连续性,高斯金字塔在简单降采样的基础上加上了高斯滤波。如图所示,将图像金字塔每层的一张图像使用不同参数做高斯模糊。
高斯金字塔
1、DOG函数
2、DoG高斯差分金字塔
(1)对应DOG算子,构建DOG金字塔。
可通过高斯差分图像看出图像上的像素值变化情况,DOG图像描绘的是目标的轮廓。
(2)DOG局部极值检测
特征点是由DOG空间的局部极值点组成的。为了寻找DoG函数的极值点,每一个像素点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小,特征点是由DOG空间的局部极值点组成的。
(3)去除边缘效应
在边缘梯度的方向上主曲率值比较大,而沿着边缘方向则主曲率值较小。
为了使描述符具有旋转不变性,需要利用图像的局部特征为给每一个关键点分配一个方向。通过尺度不变性求极值点,可以使其具有缩放不变的性质。而利用关键点邻域像素的梯度方向分布特性,可以为每个关键点指定方向参数方向,从而使描述子对图像旋转具有不变性。
通过求每个极值点的梯度来为极值点赋予方向,完成关键点的梯度计算后,使用直方图统计邻域内像素的梯度和方向。确定关键点的方向采用梯度直方图统计法,统计以关键点为原点,一定区域内的图像像素点对关键点方向生成所作的贡献。
经过一系列步骤此时对于每一个关键点都拥有三个信息:位置、尺度以及方向。然后就是为每个关键点建立一个描述符,用一组向量将这个关键点描述出来,使其不随各种变化而改变,比如光照和视角等变化。这个描述子不但包括关键点,也包含关键点周围对其有贡献的像素点,并且描述符应该有较高的独特性,以便于提高特征点正确匹配的概率。
SIFT描述子是关键点邻域高斯图像梯度统计结果的一种表示。通过对关键点周围图像区域分块,计算块内梯度直方图,生成具有独特性的向量,这个向量对该区域图像信息的表达具有唯一性。
Lowe实验结果表明:描述子采用4×4×8=128维向量表征,综合效果最优(不变性与独特性)。
(1)分别对模板图(参考图,reference image)和实时图(观测图,observation image)建立关键点描述子集合。目标的识别是通过两点集内关键点描述子的比对来完成。具有128维的关键点描述子的相似性度量采用欧式距离。
(2)关键点的匹配可以采用穷举法来完成,但是这样耗费的时间太多,一般都采用kd树的数据结构来完成搜索。搜索的内容是以目标图像的关键点为基准,搜索与目标图像的特征点最邻近的原图像特征点和次邻近的原图像特征点。
(1)尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。
(2)关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。
(3)方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。
(4)关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。
SIFT特征提取算法先以转换为灰度图的方式读取一张图片并转化为图像数组,引用sift.py中的process_image将图像文件转化为pgm格式。
# -*- coding: utf-8 -*-
from PIL import Image
from pylab import *
from PCV.localdescriptors import sift
from PCV.localdescriptors import harris
# 添加中文字体支持
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)
imname = 'data/pic1/2.jpg'
# 以灰度图的方式读入图片
im = array(Image.open(imname).convert('L'))
# 引用sift.py中的process_image将图像文件转化为pgm格式
sift.process_image(imname, '2.sift')
# l1为兴趣点坐标、尺度和方位角度 l2是对应描述符的128 维向
l1, d1 = sift.read_features_from_file('2.sift')
figure()
gray()
sift.plot_features(im, l1, circle=False)
title(u'SIFT特征',fontproperties=font)
需要的图像格式为灰度 .pgm,转换为 .pgm 格式文件代码如下,转换的结果以易读的格式保存在文本文件中。
def process_image(imagename,resultname,params="--edge-thresh 10 --peak-thresh 5"):
""" 处理一幅图像,然后将结果保存在文件中 """
if imagename[-3:] != 'pgm':
# 创建一个 pgm 文件
im = Image.open(imagename).convert('L')
im.save('tmp.pgm')
imagename = 'tmp.pgm'
cmmd = str("sift "+imagename+" --output="+resultname+
" "+params)
os.system(cmmd)
print 'processed', imagename, 'to', resultname
文本文件的数据的每一行前 4 个数值依次表示兴趣点的坐标、尺度和方向角度,然后是对应描述符的 128 维向量。这里的描述子使用原始整数数值表示,没有经过归一化处理,内容如下:
read_features_from_file将特征读取到 NumPy 数组中,如下示:
def read_features_from_file(filename):
""" 读取特征属性值,然后将其以矩阵的形式返回 """
f = loadtxt(filename)
return f[:,:4],f[:,4:] # 特征位置,描述子
原始数据集(共15张图片)展示如下:
实现数据集中每张图片的SIFT特征提取,并展示特征点如下:
对数据集中某些图片的SIFT特征提取,并用圆圈表示SIFT特征尺度,结果如下:
小结:我的数据集选取的多是大型的古代式建筑,屋檐棱角较多,而且檐壁上多有雕刻繁琐花纹,SIFT特征检测都可以将阁楼建筑的楼层层次检测出来,可以看出很明显的层次,棱角分明;然而在使用圆圈的特征点识别时,效果就没有圆点识别好了,楼层只能简单识别出来,棱角识别较差对于一些特征点并不能检测出来,轮廓效果没有圆点效果好。
SIFT特征匹配主要包括2个阶段:
(1)SIFT特征的生成,即从多幅图像中提取对尺度缩放、旋转、亮度变化无关的特征向量。
1. 构建尺度空间,检测极值点,获得尺度不变性。
2. 特征点过滤并进行精确定位。
3. 为特征点分配方向值。
4. 生成特征描述子。
(2)SIFT特征向量的匹配。
SIFT特征提取给定两张图片,计算其SIFT特征匹配结果,算法如下示:
# -*- coding: utf-8 -*-
from PIL import Image
from pylab import *
import sys
from PCV.localdescriptors import sift
if len(sys.argv) >= 3:
im1f, im2f = sys.argv[1], sys.argv[2]
else:
im1f = 'data/pic1/9.jpg'
im2f = 'data/pic1/10.jpg'
im1 = array(Image.open(im1f))
im2 = array(Image.open(im2f))
sift.process_image(im1f, 'out_sift_9.txt')
l1, d1 = sift.read_features_from_file('out_sift_9.txt')
figure()
gray()
subplot(121)
sift.plot_features(im1, l1, circle=False)
sift.process_image(im2f, 'out_sift_10.txt')
l2, d2 = sift.read_features_from_file('out_sift_10.txt')
subplot(122)
sift.plot_features(im2, l2, circle=False)
matches = sift.match_twosided(d1, d2)
print '{} matches'.format(len(matches.nonzero()[0]))
figure()
gray()
sift.plot_matches(im1, im2, l1, l2, matches, show_below=True)
show()
两张图的匹配度为676个匹配点,匹配结果:
processed tmp.pgm to out_sift_9.txt
processed tmp.pgm to out_sift_10.txt
676 matches
小结:在数据集中选取的这两张图是同一建筑物在不同角度小的图片,尺度变化不大,但是一张是正拍建筑物,另一张是建筑物的侧面,但是中间有一定的重叠部分,所以SIFT的检测匹配度还是较高的,两张图片有一定的旋转度,但是对SIFT的检测匹配影响不大,可以看出SIFT的旋转不变性。
给定一张输入的图片,在数据集内部进行检索,输出与其匹配最多的三张图片,算法代码如下:
# -*- coding: utf-8 -*-
from PIL import Image
from pylab import *
from PCV.localdescriptors import sift
import os
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
counts1 = []
counts2 = []
# 输入图片
im1f = 'data/pic1/2.jpg'
im1 = array(Image.open(im1f))
sift.process_image(im1f, 'out_sift_2.txt')
l1, d1 = sift.read_features_from_file('out_sift_2.txt')
# 数据集图片,一一比对
path = "data\\pic1\\"
filelist = os.listdir(path)
total_num = len(filelist)
for i in range(total_num):
im2f = path + str(i) + '.jpg'
im2 = array(Image.open(im2f))
sift.process_image(im2f, 'out_sift.txt')
l2, d2 = sift.read_features_from_file('out_sift.txt')
matches = sift.match_twosided(d1, d2)
counts1.append(len(matches.nonzero()[0]))
counts2.append(len(matches.nonzero()[0]))
# 打印匹配结果
print counts1
counts2.sort(reverse=True)
# 打印降序排列结果
print counts2
# 匹配度前三个图片的展示,如要展示多个图片,可以直接写个循环
# 这里为了方便将所有图片显示在同一个平面上就直接是一个个显示了
img0 = mpimg.imread(im1f)
plt.subplot(2, 3, 2)
plt.imshow(img0)
plt.axis('off')
img1 = mpimg.imread(path + str(counts1.index(counts2[0])) + '.jpg')
plt.subplot(2, 3, 4)
plt.imshow(img1)
plt.axis('off')
img2 = mpimg.imread(path + str(counts1.index(counts2[1])) + '.jpg')
plt.subplot(2, 3, 5)
plt.imshow(img2)
plt.axis('off')
img3 = mpimg.imread(path + str(counts1.index(counts2[2])) + '.jpg')
plt.subplot(2, 3, 6)
plt.imshow(img3)
plt.axis('off')
plt.show()
输入图片与数据集内各图片一一匹配,并将结果存入数组counts1和counts2(ps:counts1和counts2是一样的,存放的都是匹配结果,这里用了两个counts是为了下面做降序排序的结果区分开来)中:
[5, 8, 1, 57, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0]
将counts2也即上述数据进行降序排序,此时counts1中的数据仍为上述数据,而counts2则为下述降序数据,如下示:
[57, 8, 5, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
然后 利用counts1.index(counts2[i])按序索引寻找原始数据所在位置,即为获得该数据对应图片序号名称,把图片显示出来。
最上面的是原图(即输入要匹配的图片),下面三个依次为数据集里匹配度最高的三幅图片,分别是匹配点为57,8,5,结果展示如下:
小结:因为数据集多为古式建筑,楼阁的楼层多有多角,且花纹雕饰繁杂,SIFT对建筑特征点的检测和匹配都多为层角,比较明显,原图和匹配度为第一的图主要体现了SIFT的尺度不变性,远近两幅图;匹配度为第二的图匹配度明显下降,有一定角度的影响;第三个匹配的图角度和场景都有一定的变化,是一个近景大图,所以匹配度不是很高。SIFT在图像的不变特征提取方面拥有一定的优势,但是对模糊的图像检测出的特征点过少,还有就是对角度差别较大的同一图像检测出的特征点过少。
# -*- coding: utf-8 -*-
from pylab import *
from PIL import Image
from PCV.localdescriptors import sift
from PCV.tools import imtools
import pydot
import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'
#download_path = "panoimages" # set this to the path where you downloaded the panoramio images
#path = "/FULLPATH/panoimages/" # path to save thumbnails (pydot needs the full system path)
download_path = "C:/Users/Administrator/PycharmProjects/pic1/" # set this to the path where you downloaded the panoramio images
path = "C:/Users/Administrator/PycharmProjects/pic1/" # path to save thumbnails (pydot needs the full system path)
# list of downloaded filenames
imlist = imtools.get_imlist(download_path)
nbr_images = len(imlist)
# extract features
featlist = [imname[:-3] + 'sift' for imname in imlist]
for i, imname in enumerate(imlist):
sift.process_image(imname, featlist[i])
matchscores = zeros((nbr_images, nbr_images))
for i in range(nbr_images):
for j in range(i, nbr_images): # only compute upper triangle
print 'comparing ', imlist[i], imlist[j]
l1, d1 = sift.read_features_from_file(featlist[i])
l2, d2 = sift.read_features_from_file(featlist[j])
matches = sift.match_twosided(d1, d2)
nbr_matches = sum(matches > 0)
print 'number of matches = ', nbr_matches
matchscores[i, j] = nbr_matches
print "The match scores is: \n", matchscores
# copy values
for i in range(nbr_images):
for j in range(i + 1, nbr_images): # no need to copy diagonal
matchscores[j, i] = matchscores[i, j]
#可视化
threshold = 2 # min number of matches needed to create link
g = pydot.Dot(graph_type='graph') # don't want the default directed graph
for i in range(nbr_images):
for j in range(i + 1, nbr_images):
if matchscores[i, j] > threshold:
# first image in pair
im = Image.open(imlist[i])
im.thumbnail((100, 100))
filename = path + str(i) + '.png'
im.save(filename) # need temporary files of the right size
g.add_node(pydot.Node(str(i), fontcolor='transparent', shape='rectangle', image=filename))
# second image in pair
im = Image.open(imlist[j])
im.thumbnail((100, 100))
filename = path + str(j) + '.png'
im.save(filename) # need temporary files of the right size
g.add_node(pydot.Node(str(j), fontcolor='transparent', shape='rectangle', image=filename))
g.add_edge(pydot.Edge(str(i), str(j)))
g.write_png('build.png')
没有匹配的图片如红圈所示:
小结:
download_path = "C:/Users/Administrator/PycharmProjects/pic1/"
path = "C:/Users/Administrator/PycharmProjects/pic1/"
此次实验困扰我比较久的一个问题是pydot.InvocationException: GraphViz's executables not found,没有找到GraphViz的可执行文件,但是该装的库都装了,graphviz-2.38.msi也下载进行安装,并bin目录添加到系统的环境变量Path中去,但是运行时还是一直提示pydot.InvocationException: GraphViz's executables not found。
解决:在代码中加上:
import os
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'
# -*- coding: utf-8 -*-
from pylab import *
from numpy import *
from PIL import Image
# If you have PCV installed, these imports should work
from PCV.geometry import homography, warp
from PCV.localdescriptors import sift
"""
This is the panorama example from section 3.3.
"""
# set paths to data folder
featname = ['data/Samp/samp' + str(i + 1) + '.sift' for i in range(5)]
imname = ['data/Samp/samp' + str(i + 1) + '.jpg' for i in range(5)]
# extract features and match
l = {}
d = {}
for i in range(5):
sift.process_image(imname[i], featname[i])
l[i], d[i] = sift.read_features_from_file(featname[i])
matches = {}
for i in range(4):
matches[i] = sift.match(d[i + 1], d[i])
for i in range(4):
im1 = array(Image.open(imname[i]))
im2 = array(Image.open(imname[i + 1]))
figure()
sift.plot_matches(im2, im1, l[i + 1], l[i], matches[i], show_below=True)
# 将匹配转换成齐次坐标点的函数
def convert_points(j):
ndx = matches[j].nonzero()[0]
fp = homography.make_homog(l[j + 1][ndx, :2].T)
ndx2 = [int(matches[j][i]) for i in ndx]
tp = homography.make_homog(l[j][ndx2, :2].T)
# switch x and y - TODO this should move elsewhere
fp = vstack([fp[1], fp[0], fp[2]])
tp = vstack([tp[1], tp[0], tp[2]])
return fp, tp
# 估计单应性矩阵
model = homography.RansacModel()
# H_from_ransac函数的返回结果为单应性矩阵和对应该单应性矩阵的正确点对
fp, tp = convert_points(1)
# im1 到 im2 的单应性矩阵
H_12 = homography.H_from_ransac(fp, tp, model)[0]
fp, tp = convert_points(0)
# im0 到 im1 的单应性矩阵
H_01 = homography.H_from_ransac(fp, tp, model)[0]
# 注意:点是反序的
tp, fp = convert_points(2)
# im3 到 im2 的单应性矩阵
H_32 = homography.H_from_ransac(fp, tp, model)[0]
# 注意:点是反序的
tp, fp = convert_points(3)
# im4 到 im3 的单应性矩阵
H_43 = homography.H_from_ransac(fp, tp, model)[0]
# 扭曲图像 用于填充和平移
delta = 200
im1 = array(Image.open(imname[1]), "uint8")
im2 = array(Image.open(imname[2]), "uint8")
im_12 = warp.panorama(H_12, im1, im2, delta, delta)
im1 = array(Image.open(imname[0]), "f")
im_02 = warp.panorama(dot(H_12, H_01), im1, im_12, delta, delta)
im1 = array(Image.open(imname[3]), "f")
im_32 = warp.panorama(H_32, im1, im_02, delta, delta)
im1 = array(Image.open(imname[4]), "f")
im_42 = warp.panorama(dot(H_32, H_43), im1, im_32, delta, 2 * delta)
figure()
imshow(array(im_42, "uint8"))
axis('off')
show()
首先是在连续图像对间使用SIFT特征寻找匹配对应点对,SIFT是具有较强稳健性的描述子,能够比其他描述子产生更少的错误点,但是该方法仍不是很完美;然后RNASAC求解单应性矩阵,判定哪些点对是正确的,哪些点对是错误的,即使用一个阈值来决定哪些单应性矩阵是合理的;该图片拼接是把五张小图拼接在一起,把图像3作为中心图像,也就是希望将其他图像变成的图像,由于匹配是从最右边的图像开始计算,将图片的顺序进行了颠倒(由1,2,3,4,5的存放顺序变为5,4,3,2,1),使得从左边图像开始扭曲,将所有图像扭曲到一个公共的图像平面上。
(1)景深丰富
SIFT特征匹配 RNASAC分析:
拼接全景图:
小结:
从得到的拼接全景图来看,上述情况的一两个错配并未影响到图片的拼接,但是在图片的右上角和右下的水池处可以看到明显不贴合对齐的痕迹,在上述情况中可以看出右边的特征点匹配并未出现错配的情况,匹配率很高,但是却出现不贴合,反倒是左边出现错配的图片拼接的较好。因为对数据集进行的曝光、滤镜等处理,拼接全景图存在边缘效应。
(2)景深单一
SIFT特征匹配 RNASAC分析:
拼接全景图:
小结:
从得到的拼接全景图来看,错配点的出现没有影响到对图片的拼接情况,可以很好的实现图片全景拼接,和景深丰富的实验一样该拼接全景图的右上角也出现拼接不贴合的情况,只是相对于景深丰富实验下的拼接全景图贴合的要好,只是出现了一点点不贴合情况。
但是从景深丰富实验得到的全景图和该全景图对比发现,出现拼接不贴合的情况都是在图片的右上角落,但是右边两个小图的匹配都是相对好的,两全景图对比出现拼接不贴合的情况都是为天空这样的纯色场景,没有物体,没有明显的特征点可以匹配,即不存在特征匹配点,所以猜想出现拼接不贴合是因为该处不存在特征点匹配,所以不能很好的实现图像拼接。
1.此次试验利用SIFT算法实现了对图片的特征提取及图片的特征匹配, 古式建筑物这一数据集中的图片棱角花纹雕刻较多,层次分别,SIFT的特征检测和匹配对该组数据集来说精确度很高,在遍布特征点的情况下也还是能很清晰看出建筑物的轮廓层次,几组实验对比发现尺度变化和旋转变化对其影响较小,总的来说SIFT旋转、尺度缩放、亮度变化等保持不变的特性是一种非常稳定的局部特征,但是在角度和尺度的等多重影响下时SIFT的检测效果还是不够。
2.SIFT小结
代码一开始运行的时候出现了 IOError:empire.sift not found ,就是empire.sift无法生成。
百度说是vlfeat的版本问题,因为我用的是最新的版本0.9.21-bin.tar.gz,要vlfeat-0.9.20-bin.tar.gz版本的才行VLFeat官网 ,vifeat安装可参考教程,但是又出现一个新错误 IndexError:too many indices for array 。
解决方法:把sift.exe,vl.dll和vl.lib三个复制到你现在所做的项目目录下就可以。
总结步骤:
1.首先从官网下载vlfeat-0.9.20-bin.tar.gz安装包,解压后找到bin文件夹里的win64文件夹,将整个文件夹拷贝放到电脑中的某个目录下,建议和之前下载的PCV放到一起(ps:我是都放在python目录下,还将win64更名为win64VLfeat)。
2.进入PCV文件夹里的localdescriptors找到sift.py文件,并打开将cmmd中的目录修改为刚才放置VLfeat文件中sift.exe的路径即可
需要注意的是,如果python版本在3.0以上的需要在print后面加括号。
2.把vlfeat文件夹bin下win64中的sift.exe和vl.dll这两个文件复制到项目的文件夹中。