计算机视觉——SIFT描述子

文章目录

  • 一、SIFT算法
    • (1)简介
    • (2)特点
    • (3)步骤
  • 二、SIFT算法详解
    • (1)尺度空间
      • ①概念
      • ②表示
    • (2)高斯金字塔
      • ①概念
      • ②表示
    • (3)DOG空间极值检测
      • ①DOG函数
      • ②DoG高斯差分金字塔
    • (4)关键点方向分配
    • (5)关键点描述
    • (6)关键点匹配
  • 三、实验代码
  • 四、实验结果及分析
    • (1)SIFT单张图片特征提取
    • (2)SIFT进行两张图像匹配
    • (3)SIFT数据集匹配图片
    • (4)结果分析
      • ①SIFT单张图片特征提取
      • ②SIFT进行两张图像匹配
      • ③SIFT数据集匹配图片
  • 五、总结
  • 六、补充实验一
    • (1)实验遇到的问题及解决
      • ①问题
      • ②解决
    • (2)匹配地理标记
      • ①代码
      • ②实验结果及分析
    • (3)数据集检索图片
      • ①代码
      • ②实验结果及分析
  • 七、补充实验二
    • (1)RANSAC算法
      • ①简介
      • ②原理
    • (2)代码
    • (3)实验结果及分析
      • ①景深丰富:
      • ②景深单一:
      • ③小结
      • 引用

一、SIFT算法

(1)简介

SIFT定义:尺度不变特征转换(Scale-invariant feature transform或SIFT)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。应用范围:物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。

(2)特点

局部影像特征的描述与侦测可以帮助辨识物体,SIFT 特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性,它们是高度显著而且相对容易撷取,在母数庞大的特征数据库中,很容易辨识物体而且鲜有误认。使用 SIFT特征描述对于部分物体遮蔽的侦测率也相当高,甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下,辨识速度可接近即时运算。SIFT特征的信息量大,适合在海量数据库中快速准确匹配。

  1. SIFT特征是图像的局部特征,其对旋转、尺度缩放、亮度变化保持不变性,对视角变化、仿射变换、噪声也保持一定程度的稳定性;

  2. 独特性(Distinctiveness)好,信息量丰富,适用于在海量特征数据库中进行快速、准确的匹配;

  3. 多量性,即使少数的几个物体也可以产生大量的SIFT特征向量;

  4. 高速性,经优化的SIFT匹配算法甚至可以达到实时的要求;

  5. 可扩展性,可以很方便的与其他形式的特征向量进行联合。

(3)步骤

  1. 尺度空间极值检测:搜索所有尺度上的图像位置。通过高斯微分函数来识别潜在的对于尺度和旋转不变的兴趣点。

  2. 关键点定位:在每个候选的位置上,通过一个拟合精细的模型来确定位置和尺度。关键点的选择依据于它们的稳定程度。

  3. 方向确定:基于图像局部的梯度方向,分配给每个关键点位置一个或多个方向。所有后面的对图像数据的操作都相对于关键点的方向、尺度和位置进行变换,从而提供对于这些变换的不变性。

  4. 关键点描述:在每个关键点周围的邻域内,在选定的尺度上测量图像局部的梯度。这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变化。

二、SIFT算法详解

(1)尺度空间

①概念

尺度空间即试图在图像领域中模拟人眼观察物体的概念与方法。例如:观察一颗树,关键在于我们想要观察是树叶子还是整棵树:如果是一整棵树(相当于大尺度情况下观察),那么就应该去除图像的细节部分。如果是树叶(小尺度情况下观察),那么就该观察局部细节特征。
SIFT算法在构建尺度空间时候采取高斯核函数进行滤波,使原始图像保存最多的细节特征,经过高斯滤波后细节特征逐渐减少来模拟大尺度情况下的特征表示。
利用高斯核函数进行滤波的主要原因有两个:
(1)高斯核函数是唯一的尺度不变核函数。
(2)DoG核函数可以近似为LoG函数,这样可以使特征提取更加简单。同时,David. Lowe作者在论文中提出将原始图像进行2倍上采样后滤波能够保留更多的信息便于后续特征提取与匹配。其实尺度空间图像生成就是当前图像与不同尺度核参数σ进行卷积运算后产生的图像。

②表示

L(x, y, σ) ,定义为原始图像 I(x, y)与一个可变尺度的2维高斯函数G(x, y, σ) 卷积运算。
计算机视觉——SIFT描述子_第1张图片
*表示卷积运算,(x,y)代表图像的像素位置。是尺度空间因子,值越小表示图像被平滑的越少,相应的尺度也就越小。大尺度对应于图像的概貌特征,小尺度对应于图像的细节特征。

(2)高斯金字塔

①概念

尺度空间在实现时使用高斯金字塔表示,高斯金字塔的构建分为两步:
(1)对图像做高斯平滑;
(2)对图像做降采样。
计算机视觉——SIFT描述子_第2张图片
图像的金字塔模型是指将原始图像不断降阶采样,得到一系列大小不一的图像,由大到小,从下到上构成的塔状模型。原图像为金子塔的第一层,每次降采样所得到的新图像为金字塔的一层(每层一张图像),每个金字塔共n层。为了让尺度体现其连续性,高斯金字塔在简单降采样的基础上加上了高斯滤波。如上图所示,将图像金字塔每层的一张图像使用不同参数做高斯模糊,Octave表示一幅图像可产生的图像组数,Interval表示一组图像包括的图像层数。另外,降采样时,高斯金字塔上一组图像的初始图像(底层图像)是由前一组图像的倒数第三张图像隔点采样得到的。

②表示

高斯图像金字塔共o组、s层,则有
在这里插入图片描述
σ:尺度空间坐标;s:sub-level层坐标;σ0:初始尺度;S:每组层数(一般为3~5)
组内和组间尺度:
2i-1(σ,kσ,k2σ,...,kn-1σ)   k=21/S
i:金字塔组数;n:每一组的层数

(3)DOG空间极值检测

①DOG函数

在这里插入图片描述

②DoG高斯差分金字塔

(1)对应DOG算子,需构建DOG金字塔。
可以通过高斯差分图像看出图像上的像素值变化情况。(如果没有变化,也就没有特征。特征必须是变化尽可能多的点。)DOG图像描绘的是目标的轮廓。
计算机视觉——SIFT描述子_第3张图片
(2)DOG局部极值检测
特征点是由DOG空间的局部极值点组成的。为了寻找DoG函数的极值点,每一个像素点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。特征点是由DOG空间的局部极值点组成的。为了寻找DoG函数的极值点,每一个像素点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。如下图,中间的检测点和它同尺度的8个相邻点和上下相邻尺度对应的9×2个点共26个点比较,以确保在尺度空间和二维图像空间都检测到极值点。
计算机视觉——SIFT描述子_第4张图片
(3)去除边缘效应
在边缘梯度的方向上主曲率值比较大,而沿着边缘方向则主曲率值较小。候选特征点的DoG函数D(x)的主曲率与2×2Hessian矩阵H的特征值成正比。
在这里插入图片描述
其中,Dxx,Dxy,Dyy是候选点邻域对应位置的差分求得的。
H的特征值α和β代表x和y方向的梯度
在这里插入图片描述
表示矩阵H对角线元素之和,表示矩阵H的行列式。假设是α较大的特征值,而是β较小的特征值,令在这里插入图片描述,则计算机视觉——SIFT描述子_第5张图片
该值在两特征值相等时达最小。Lowe论文中建议阈值T为1.2,即在这里插入图片描述时保留关键点,反之剔除

(4)关键点方向分配

1、通过尺度不变性求极值点,需要利用图像的局部特征为给每一个关键点分配一个基准方向,使描述子对图像旋转具有不变性。对于在DOG金字塔中检测出的关键点,采集其所在高斯金字塔图像3σ邻域窗口内像素的梯度和方向分布特征。梯度的模值和方向如下:
在这里插入图片描述
2、本算法采用梯度直方图统计法,统计以关键点为原点,一定区域内的图像像素点确定关键点方向。在完成关键点的梯度计算后,使用直方图统计邻域内像素的梯度和方向。梯度直方图将0~360度的方向范围分为36个柱,其中每柱10度。如下图所示,直方图的峰值方向代表了关键点的主方向,方向直方图的峰值则代表了该特征点处邻域梯度的方向,以直方图中最大值作为该关键点的主方向。为了增强匹配的鲁棒性,只保留峰值大于主方向峰值80%的方向作为该关键点的辅方向。
计算机视觉——SIFT描述子_第6张图片

(5)关键点描述

对于每一个关键点,都拥有位置、尺度以及方向三个信息。为每个关键点建立一个描述符,用一组向量将这个关键点描述出来,使其不随各种变化而改变,比如光照变化、视角变化等等。这个描述子不但包括关键点,也包含关键点周围对其有贡献的像素点,并且描述符应该有较高的独特性,以便于提高特征点正确匹配的概率。
计算机视觉——SIFT描述子_第7张图片
Lowe实验结果表明:描述子采用4×4×8=128维向量表征,综合效果最优(不变性与独特性)。

(6)关键点匹配

1、分别对模板图(参考图,reference image)和实时图(观测图,
observation image)建立关键点描述子集合。目标的识别是通过两点集内关键点描述子的比对来完成。具有128维的关键点描述子的相似性度量采用欧式距离。
3、匹配可采取穷举法完成,但所花费的时间太多。所以一般采用kd树的数据结构来完成搜索。搜索的内容是以目标图像的关键点为基准,搜索与目标图像的特征点最邻近的原图像特征点和次邻近的原图像特征点。
Kd树如下如所示,是个平衡二叉树
计算机视觉——SIFT描述子_第8张图片

三、实验代码

sift1.py

# -*- coding: utf-8 -*-
from PIL import Image
from pylab import *
from PCV.localdescriptors import sift
from PCV.localdescriptors import harris

# 添加中文字体支持
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)

imname = 'F:\计算机视觉\博客三/01.jpg'
im = array(Image.open(imname).convert('L'))
sift.process_image(imname, 'empire.sift')
l1, d1 = sift.read_features_from_file('empire.sift')

figure()
gray()
subplot(131)
sift.plot_features(im, l1, circle=False)
title(u'SIFT特征',fontproperties=font)
subplot(132)
sift.plot_features(im, l1, circle=True)
title(u'用圆圈表示SIFT特征尺度',fontproperties=font)

# 检测harris角点
harrisim = harris.compute_harris_response(im)

subplot(133)
filtered_coords = harris.get_harris_points(harrisim, 6, 0.1)
imshow(im)
plot([p[1] for p in filtered_coords], [p[0] for p in filtered_coords], '*')
axis('off')
title(u'Harris角点',fontproperties=font)

show()

sift2.py

from PIL import Image
from pylab import *
import sys
from PCV.localdescriptors import sift


if len(sys.argv) >= 3:
  im1f, im2f = sys.argv[1], sys.argv[2]
else:
#  im1f = '../data/sf_view1.jpg'
#  im2f = '../data/sf_view2.jpg'
  im1f = 'F:\计算机视觉\博客三/01.jpg'
  im2f = 'F:\计算机视觉\博客三/02.jpg'
#  im1f = '../data/climbing_1_small.jpg'
#  im2f = '../data/climbing_2_small.jpg'
im1 = array(Image.open(im1f))
im2 = array(Image.open(im2f))

sift.process_image(im1f, 'out_sift_1.txt')
l1, d1 = sift.read_features_from_file('out_sift_1.txt')
figure()
gray()
subplot(121)
sift.plot_features(im1, l1, circle=False)

sift.process_image(im2f, 'out_sift_2.txt')
l2, d2 = sift.read_features_from_file('out_sift_2.txt')
subplot(122)
sift.plot_features(im2, l2, circle=False)

#matches = sift.match(d1, d2)
matches = sift.match_twosided(d1, d2)
print ('{} matches'.format(len(matches.nonzero()[0])))

figure()
gray()
sift.plot_matches(im1, im2, l1, l2, matches, show_below=True)
show()

sift3.py

from PIL import Image
from pylab import *
from PCV.localdescriptors import sift
import matplotlib.pyplot as plt


im1f = 'F:\计算机视觉\博客三/11.jpg'
im1 = array(Image.open(im1f))
sift.process_image(im1f, 'out_sift_1.txt')
l1, d1 = sift.read_features_from_file('out_sift_1.txt')

arr=[]
arrHash = {}
for i in range(12,16):

    im2f = (r'F:\计算机视觉\博客三/'+str(i)+'.jpg')
    im2 = array(Image.open(im2f))
    sift.process_image(im2f, 'out_sift_2.txt')
    l2, d2 = sift.read_features_from_file('out_sift_2.txt')
    matches = sift.match_twosided(d1, d2)
    length=len(matches.nonzero()[0])
    length=int(length)
    arr.append(length)
    arrHash[length]=im2f

arr.sort()
arr=arr[::-1]
arr=arr[:5]
i=0
plt.figure(figsize=(5,12))
for item in arr:
    if(arrHash.get(item)!=None):
        img=arrHash.get(item)
        im1 = array(Image.open(img))
        ax=plt.subplot(511 + i)
        ax.set_title('{} matches'.format(item))
        plt.axis('off')
        imshow(im1)
        i = i + 1

plt.show()

四、实验结果及分析

实验图集
计算机视觉——SIFT描述子_第9张图片

(1)SIFT单张图片特征提取

①第一组01-05号图片
计算机视觉——SIFT描述子_第10张图片
计算机视觉——SIFT描述子_第11张图片
计算机视觉——SIFT描述子_第12张图片
计算机视觉——SIFT描述子_第13张图片
计算机视觉——SIFT描述子_第14张图片
②第二组06-09号图片
计算机视觉——SIFT描述子_第15张图片
计算机视觉——SIFT描述子_第16张图片

计算机视觉——SIFT描述子_第17张图片
③第三组11-15号图片
计算机视觉——SIFT描述子_第18张图片


计算机视觉——SIFT描述子_第19张图片

(2)SIFT进行两张图像匹配

第一组
计算机视觉——SIFT描述子_第20张图片
计算机视觉——SIFT描述子_第21张图片
第二组
计算机视觉——SIFT描述子_第22张图片
计算机视觉——SIFT描述子_第23张图片
第三组
计算机视觉——SIFT描述子_第24张图片
计算机视觉——SIFT描述子_第25张图片
计算机视觉——SIFT描述子_第26张图片
不同组图片之间进行匹配
计算机视觉——SIFT描述子_第27张图片

(3)SIFT数据集匹配图片

这里选择了第三组进行实验
对图片11号进行匹配
计算机视觉——SIFT描述子_第28张图片
结果
计算机视觉——SIFT描述子_第29张图片

(4)结果分析

①SIFT单张图片特征提取

三个场景不同角度距离的照片,从同组内对比可发现,算法所标记的特征点很大程度是一致的,对于阳台、防盗窗等显著特征标记位置都能有一定的相同,能看出SIFT算法的局部特征提取较为稳定,不易出错。同时,特征提取的效率较高,能够监测到的特征点对比HARRIS算法有明显增多,精确度高。

②SIFT进行两张图像匹配

同组同场景下的匹配,首先,对于图中同样的特征,在距离较远的情况下,匹配度较低,连线数对比距离较近的匹配图中明显减少,精度也有一定程度的下降。其次,在变换角度较大的匹配中,仍能看出图中显著特征的匹配度较高,连线也是较为精准。对物体匹配不受背景杂物噪声的影响,匹配结果体现很精确,对物体拍摄的图像进行角度变化、光照变化、尺度变化等,产生的影响较小,得到的结果同样非常精确,图片匹配度也很高,体现了sift算法对比harris算法的增强。
不同组之间的匹配,很明显,匹配不出相同的特征,同样体现了SIFT算法的精准度较高。

③SIFT数据集匹配图片

该实验我选择了第三组中,全景内照进了较为角落的的图片进行检索,从得出的结果而言,明显将全景照入的图片匹配度极高,而照入其他角落的图片匹配度依次降低,体现了算法对特征的敏感性。算法中,将输入图片与数据集中的图片进行特征匹配后得到的数据进行存储,依次对比后根据匹配度进行排序输出,在特征点极多的图片库中运行速度也是较为优秀,匹配的结果对于角度明暗尺度的变化有不变性,是一种稳定性高的算法。

五、总结

SIFT特征具有稳定性和不变性,在图像处理和计算机视觉领域有着很重要的作用,其本身也是非常复杂的。拥有精确度高,检测速度快,出错率较低的优点,对于角度变化、光照变化等的抗性较高,较难影响算法的匹配,对比Harris算法有着速度与效率上的明显优势,SIFT在图像的不变特征提取方面拥有无与伦比的优势,但并不完美,仍然存在:实时性不高,低概率但依然存在的特征点较少,对边缘光滑的目标无法准确提取特征点等缺点。

六、补充实验一

由于各种各样的原因放弃使用原图集,补充实验所使用的图集如下:
计算机视觉——SIFT描述子_第30张图片

(1)实验遇到的问题及解决

①问题

计算机视觉——SIFT描述子_第31张图片

②解决

安装graphviz后添加bin文件夹路径到环境变量
在这里插入图片描述
并在代码中添加

import os
os.environ['PATH'] = os.environ['PATH'] + (';c:\\Program Files (x86)\\Graphviz2.38\\bin\\')

后即可正常运行

(2)匹配地理标记

①代码

# -*- coding: utf-8 -*-
import json
import os
import urllib
# import urlparse
import urllib.request
from pylab import *
from PIL import Image
from PCV.localdescriptors import sift
from PCV.tools import imtools
import os
os.environ['PATH'] = os.environ['PATH'] + (';c:\\Program Files (x86)\\Graphviz2.38\\bin\\')
import pydot

download_path = "F:\计算机视觉\博客三a"
path = "F:\计算机视觉\博客三a/"

imlist = imtools.get_imlist(download_path)
nbr_images = len(imlist)

featlist = [imname[:-3] + 'sift' for imname in imlist]
for i, imname in enumerate(imlist):
    sift.process_image(imname, featlist[i])

matchscores = zeros((nbr_images, nbr_images))

for i in range(nbr_images):
    for j in range(i, nbr_images):  # only compute upper triangle
        print('comparing ', imlist[i], imlist[j])
        l1, d1 = sift.read_features_from_file(featlist[i])
        l2, d2 = sift.read_features_from_file(featlist[j])
        matches = sift.match_twosided(d1, d2)
        nbr_matches = sum(matches > 0)
        print('number of matches = ', nbr_matches)
        matchscores[i, j] = nbr_matches

# copy values
for i in range(nbr_images):
    for j in range(i + 1, nbr_images):  # no need to copy diagonal
        matchscores[j, i] = matchscores[i, j]

# 可视化

threshold = 2  # min number of matches needed to create link

g = pydot.Dot(graph_type='graph')  # don't want the default directed graph

for i in range(nbr_images):
    for j in range(i + 1, nbr_images):
        if matchscores[i, j] > threshold:
            # first image in pair
            im = Image.open(imlist[i])
            im.thumbnail((200, 200))
            filename = path + str(i) + '.jpg'
            im.save(filename)  # need temporary files of the right size
            g.add_node(pydot.Node(str(i), fontcolor='transparent', shape='rectangle', image=filename))

            # second image in pair
            im = Image.open(imlist[j])
            im.thumbnail((200, 200))
            filename = path + str(j) + '.jpg'
            im.save(filename)  # need temporary files of the right size
            g.add_node(pydot.Node(str(j), fontcolor='transparent', shape='rectangle', image=filename))

            g.add_edge(pydot.Edge(str(i), str(j)))
g.write_jpg('F:\计算机视觉\博客三a/finally.jpg')

②实验结果及分析

计算机视觉——SIFT描述子_第32张图片
实验分析:
假设数据集中存在n张图片,则需匹配(1+n)*n/2次,匹配次数决定匹配速度,同时图片大小也是匹配速度的决定性因素,若图片过大(像素过高)检测到的特征点过多,即难以快速匹配,运行时间极长,原图集正是因此而难以进行实验。该算法运行出的结果为图集中具有相同特征的图片进行相互连接,若图片过大则会出现将两张内容无关的图片进行连接,程序会将图中的无关特征也进行匹配,进而出错,而图片过小时程序检测到的特征点过少,会出现每张图各分一类或同类图分出数组的错误情况。当图片大小适合时,程序的精确度极高,能够精准地将同类图划做一组并根据特征进行连接,输出结果一目了然。

(3)数据集检索图片

①代码

import os
import numpy as np
import matplotlib.image as mp
# from skimage import img_as_ubyte
from PIL import Image
from pylab import *
import sys
from PCV.localdescriptors import sift

# 添加中文字体支持
from matplotlib.font_manager import FontProperties
font = FontProperties(fname=r"c:\windows\fonts\SimSun.ttc", size=14)
path = "F:\计算机视觉\博客三/"
filelist = os.listdir(path)  # 打开对应的文件夹
total_num = len(filelist)-1  #得到文件夹中图像的个数
matches_array=np.array([0,0,0,0,0,0,0,0,0,0,0,0,0,0,0])
result=np.array([0,0,0])
if len(sys.argv) >= 3:
    im1f, im2f = sys.argv[1], sys.argv[2]
else:
    im1f = 'F:\计算机视觉\博客三/01.jpg'
im1 = array(Image.open(im1f))
sift.process_image(im1f, 'out_sift_1.txt')
l1, d1 = sift.read_features_from_file('out_sift_1.txt')
figure()
# subplot(2,2,1)
plt.axis('off')
title(u'原图',fontproperties=font)
imshow(Image.open(im1f))
for i in range(1,9):
    im2f = path + '0' + str(i + 1) + '.jpg' #拼接图像的读取地址
    im2 = array(Image.open(im2f))
    sift.process_image(im2f, 'out_sift_'+str(i+2)+'.txt')
    l2, d2 = sift.read_features_from_file('out_sift_'+str(i+2)+'.txt')
    matches = sift.match_twosided(d1, d2)
    matches_array[i] = len(matches.nonzero()[0])
print (matches_array)
for i in range(3):
    a = np.argmax(matches_array)
    im2f = path + '0' + str(a+1) + '.jpg' #拼接图像的读取地址
    subplot(1,3,i+1)
    plt.axis('off')
    mstr='matches:'+str(matches_array[a])
    # title(mstr,fontproperties=font)
    imshow(Image.open(im2f))
    matches_array[a]=0
show()

②实验结果及分析

原图:
计算机视觉——SIFT描述子_第33张图片
运行结果:
计算机视觉——SIFT描述子_第34张图片

实验分析:
该算法首先将输入图片与数据集中的图片进行SIFT匹配,并将匹配值保存,随后将匹配值进行排序,对最大的前三张图片进行输出。我选择的是第一张图片作为范本,得出的结果十分明显,首先并没有将不相关的另一组的图片进行输出,其次,所输出的前三张图片均是特征明显,未出现边缘图像。对于不大的图片,运行速度较快,未有迟滞,若是大图(特征点多)则会有不同程度的延迟,图片越大运行越慢,甚至会出现一张图运行十数分钟的情况,该算法对于光照、角度、尺度的变化具有明显的抗性,不易因变化而出错。

七、补充实验二

(1)RANSAC算法

①简介

RANSAC为Random Sample Consensus的缩写,它是根据一组包含异常数据的样本数据集,计算出数据的数学模型参数,得到有效样本数据的算法。它于1981年由Fischler和Bolles最先提出 。
RANSAC算法经常用于计算机视觉中。例如,在立体视觉领域中同时解决一对相机的匹配点问题及基本矩阵的计算。
RANSAC算法的基本假设是样本中包含正确数据(inliers,可以被模型描述的数据),也包含异常数据(outliers,偏离正常范围很远、无法适应数学模型的数据),即数据集中含有噪声。这些异常数据可能是由于错误的测量、错误的假设、错误的计算等产生的。同时RANSAC也假设,给定一组正确的数据,存在可以计算出符合这些数据的模型参数的方法。

②原理

OpenCV中滤除误匹配对采用RANSAC算法寻找一个最佳单应性矩阵H,矩阵大小为3×3。RANSAC目的是找到最优的参数矩阵使得满足该矩阵的数据点个数最多,通常令h33=1h33=1来归一化矩阵。由于单应性矩阵有8个未知参数,至少需要8个线性方程求解,对应到点位置信息上,一组点对可以列出两个方程,则至少包含4组匹配点对。
在这里插入图片描述
其中(x,y)表示目标图像角点位置,(x’,y’)为场景图像角点位置,s为尺度参数。
RANSAC算法从匹配数据集中随机抽出4个样本并保证这4个样本之间不共线,计算出单应性矩阵,然后利用这个模型测试所有数据,并计算满足这个模型数据点的个数与投影误差(即代价函数),若此模型为最优模型,则对应的代价函数最小。
在这里插入图片描述
步骤:

  1. 随机从数据集中随机抽出4个样本数据 (此4个样本之间不能共线),计算出变换矩阵H,记为模型M;
  2. 计算数据集中所有数据与模型M的投影误差,若误差小于阈值,加入内点集 I ;
  3. 如果当前内点集 I 元素个数大于最优内点集 I_best , 则更新 I_best = I,同时更新迭代次数k ;
  4. 如果迭代次数大于k,则退出 ; 否则迭代次数加1,并重复上述步骤;

迭代次数k在不大于最大迭代次数的情况下,是在不断更新而不是固定的,见上方k的更新;
其中,p为置信度,一般取0.995;w为”内点”的比例 ; m为计算模型所需要的最少样本数=4;
求得单应矩阵后就好办了,把内点留下,内点就是筛选后的好用的点,外点舍弃,外点就有可能是误匹配的点。

(2)代码

# -*- coding: utf-8 -*-
import cv2
import numpy as np
import random

def compute_fundamental(x1, x2):
    n = x1.shape[1]
    if x2.shape[1] != n:
        raise ValueError("Number of points don't match.")

    # build matrix for equations
    A = np.zeros((n, 9))
    for i in range(n):
        A[i] = [x1[0, i] * x2[0, i], x1[0, i] * x2[1, i], x1[0, i] * x2[2, i],
                x1[1, i] * x2[0, i], x1[1, i] * x2[1, i], x1[1, i] * x2[2, i],
                x1[2, i] * x2[0, i], x1[2, i] * x2[1, i], x1[2, i] * x2[2, i]]

    # compute linear least square solution
    U, S, V = np.linalg.svd(A)
    F = V[-1].reshape(3, 3)

    # constrain F
    # make rank 2 by zeroing out last singular value
    U, S, V = np.linalg.svd(F)
    S[2] = 0
    F = np.dot(U, np.dot(np.diag(S), V))

    return F / F[2, 2]


def compute_fundamental_normalized(x1, x2):
    """    Computes the fundamental matrix from corresponding points
        (x1,x2 3*n arrays) using the normalized 8 point algorithm. """

    n = x1.shape[1]
    if x2.shape[1] != n:
        raise ValueError("Number of points don't match.")

    # normalize image coordinates
    x1 = x1 / x1[2]
    mean_1 = np.mean(x1[:2], axis=1)
    S1 = np.sqrt(2) / np.std(x1[:2])
    T1 = np.array([[S1, 0, -S1 * mean_1[0]], [0, S1, -S1 * mean_1[1]], [0, 0, 1]])
    x1 = np.dot(T1, x1)

    x2 = x2 / x2[2]
    mean_2 = np.mean(x2[:2], axis=1)
    S2 = np.sqrt(2) / np.std(x2[:2])
    T2 = np.array([[S2, 0, -S2 * mean_2[0]], [0, S2, -S2 * mean_2[1]], [0, 0, 1]])
    x2 = np.dot(T2, x2)

    # compute F with the normalized coordinates
    F = compute_fundamental(x1, x2)
    # print (F)
    # reverse normalization
    F = np.dot(T1.T, np.dot(F, T2))

    return F / F[2, 2]

def randSeed(good, num = 8):
    '''
    :param good: 初始的匹配点对
    :param num: 选择随机选取的点对数量
    :return: 8个点对list
    '''
    eight_point = random.sample(good, num)
    return eight_point

def PointCoordinates(eight_points, keypoints1, keypoints2):
    '''
    :param eight_points: 随机八点
    :param keypoints1: 点坐标
    :param keypoints2: 点坐标
    :return:8个点
    '''
    x1 = []
    x2 = []
    tuple_dim = (1.,)
    for i in eight_points:
        tuple_x1 = keypoints1[i[0].queryIdx].pt + tuple_dim
        tuple_x2 = keypoints2[i[0].trainIdx].pt + tuple_dim
        x1.append(tuple_x1)
        x2.append(tuple_x2)
    return np.array(x1, dtype=float), np.array(x2, dtype=float)


def ransac(good, keypoints1, keypoints2, confidence,iter_num):
    Max_num = 0
    good_F = np.zeros([3,3])
    inlier_points = []
    for i in range(iter_num):
        eight_points = randSeed(good)
        x1,x2 = PointCoordinates(eight_points, keypoints1, keypoints2)
        F = compute_fundamental_normalized(x1.T, x2.T)
        num, ransac_good = inlier(F, good, keypoints1, keypoints2, confidence)
        if num > Max_num:
            Max_num = num
            good_F = F
            inlier_points = ransac_good
    print(Max_num, good_F)
    return Max_num, good_F, inlier_points


def computeReprojError(x1, x2, F):
    """
    计算投影误差
    """
    ww = 1.0/(F[2,0]*x1[0]+F[2,1]*x1[1]+F[2,2])
    dx = (F[0,0]*x1[0]+F[0,1]*x1[1]+F[0,2])*ww - x2[0]
    dy = (F[1,0]*x1[0]+F[1,1]*x1[1]+F[1,2])*ww - x2[1]
    return dx*dx + dy*dy

def inlier(F,good, keypoints1,keypoints2,confidence):
    num = 0
    ransac_good = []
    x1, x2 = PointCoordinates(good, keypoints1, keypoints2)
    for i in range(len(x2)):
        line = F.dot(x1[i].T)
        #在对极几何中极线表达式为[A B C],Ax+By+C=0,  方向向量可以表示为[-B,A]
        line_v = np.array([-line[1], line[0]])
        err = h = np.linalg.norm(np.cross(x2[i,:2], line_v)/np.linalg.norm(line_v))
        # err = computeReprojError(x1[i], x2[i], F)
        if abs(err) < confidence:
            ransac_good.append(good[i])
            num += 1
    return num, ransac_good


if __name__ =='__main__':
    im1 = 'F:/python/pic/R1.jpg'
    im2 = 'F:/python/pic/R2.jpg'

    print(cv2.__version__)
    psd_img_1 = cv2.imread(im1, cv2.IMREAD_COLOR)
    psd_img_2 = cv2.imread(im2, cv2.IMREAD_COLOR)
    # 3) SIFT特征计算
    sift = cv2.xfeatures2d.SIFT_create()
    # find the keypoints and descriptors with SIFT
    kp1, des1 = sift.detectAndCompute(psd_img_1, None)
    kp2, des2 = sift.detectAndCompute(psd_img_2, None)

    # FLANN 参数设计
    match = cv2.BFMatcher()
    matches = match.knnMatch(des1, des2, k=2)

    # Apply ratio test
    # 比值测试,首先获取与 A距离最近的点 B (最近)和 C (次近),
    # 只有当 B/C 小于阀值时(0.75)才被认为是匹配,
    # 因为假设匹配是一一对应的,真正的匹配的理想距离为0
    good = []
    for m, n in matches:
        if m.distance < 0.75 * n.distance:
            good.append([m])
    print(good[0][0])

    print("number of feature points:",len(kp1), len(kp2))
    print(type(kp1[good[0][0].queryIdx].pt))
    print("good match num:{} good match points:".format(len(good)))
    for i in good:
        print(i[0].queryIdx, i[0].trainIdx)


    Max_num, good_F, inlier_points = ransac(good, kp1, kp2, confidence=30, iter_num=500)
    # cv2.drawMatchesKnn expects list of lists as matches.
    # img3 = np.ndarray([2, 2])
    # img3 = cv2.drawMatchesKnn(img1, kp1, img2, kp2, good[:10], img3, flags=2)

    # cv2.drawMatchesKnn expects list of lists as matches.

    img3 = cv2.drawMatchesKnn(psd_img_1,kp1,psd_img_2,kp2,good,None,flags=2)
    img4 = cv2.drawMatchesKnn(psd_img_1,kp1,psd_img_2,kp2,inlier_points,None,flags=2)
    cv2.namedWindow('image1', cv2.WINDOW_NORMAL)
    cv2.namedWindow('image2', cv2.WINDOW_NORMAL)
    cv2.imshow("image1",img3)
    cv2.imshow("image2",img4)
    cv2.waitKey(0)#等待按键按下
    cv2.destroyAllWindows()#清除所有窗口

(3)实验结果及分析

原图
计算机视觉——SIFT描述子_第35张图片

①景深丰富:



结果分析:
通过实验结果的对比,我们可以发现,景深丰富的图片中,算法能够得到非常多的匹配点,但是存在着少部分的错误(例如结果图左上部分),在经过ransac算法之后,删去了相当多的匹配点,有错误但也有正确的匹配点,同时也仍有错误的点保留了下来。相比之下优化效果明显的展现了出来,尽管误差仍旧存在,但产生的效果非常显然。

②景深单一:



结果分析:
通过观察结果图可以发现,在景深单一的图片中,算法提取的匹配点同样存在着小部分较为明显的错误,在ransac算法之后删去了许多匹配点,如同景深丰富的图片一样,保留了众多正确的匹配点和少量错误的点,但对比之后,发现景深单一的图片中效果并不如景深丰富的图片,留下的错误点有些过于明显了,对场景内一些较为相似的地方无法提现效果

③小结

相较于景深单一的场景,景深丰富的场景中ransac算法会剔除更多的匹配点,无论是正确的还是错误的匹配特征,同时,对于本身场景内相似的部分能做到的效果并不优秀,留下了较为显眼的错误(也可能是我图片有问题)。

引用

sift特征详解
sift算法原理
实验问题解决
RANSAC算法参考

你可能感兴趣的:(计算机视觉课程)