计算机视觉——Bag of features图像检索

基于视觉词典的图像检索

      • 一.实验内容
      • 二.实验步骤
      • 三.代码实现
      • 四.结果分析
        • 1.实验结果
        • 2.对比实验
        • 3.总结
      • 五.实验小结

一.实验内容

  1. BOW(Bag of words)模型:使用一组无序的words来表示一段文字或者一个文档。近年被广泛应用于计算机视觉中。
    基本思想:是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是将每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋,Bag of words即因此而来),然后根据袋子里装的词汇对其进行分类。
  2. Bag of words-> Bag of features
    特征袋BOF是词袋BOW的一种改进,用于图像处理问题。将BOW的思想引入到图像中来,words在图像中用一种特定的特征描述子来代替,但这样完全忽略了图像的空间布局关系。
    计算机视觉——Bag of features图像检索_第1张图片
  3. Bag of features模型的构建
    按照Bag of Features算法的思想,我们要找到图像中的关键词,这些关键词必须具备较高的区分度,通常会采用「SIFT」特征。
    有了特征之后,我们会将这些特征通过聚类算法得出很多聚类中心。这些聚类中心通常具有较高的代表性。典型的聚类算法有k-means算法。我们将这些聚类中心组合在一起,形成一部字典。
  4. 训练字典( visual vocabulary )
    提取完特征后,由于提取的特征点太多,不适合做分析操作,我们会采用一些聚类算法对这些特征向量进行聚类。最常用的聚类算法是 k-means。
    计算机视觉——Bag of features图像检索_第2张图片
    聚类完成后,我们就得到了这 k 个向量组成的字典,这里每个类,我们就称为一个词(codeword)。
    这时,所有的类(codeword)就会构成词典(codebook)
  5. 直方图表示:根据字典重新提取图像的高层特征,对于图像中的每一个SIFT特征,都可以在字典中找到一个最相似的visual word,这样我们可以统计一个 k 维的直方图(或者K维的特征向量),代表该图像的SIFT特征在字典中的相似度频率。

计算机视觉——Bag of features图像检索_第3张图片

  1. 训练分类器:当我们得到每幅图片的直方图向量(反映了字典各词出现的频率)后,接下来就是传统的分类问题,训练分类器模型。对于需要预测的图片,先一样的提取sift特征,再根据字典量化直方图向量,用分类器模型对直方图进行分类,常用的方法有SVM。
  2. 引入TF-IDF权值:TF-IDF 最早是在文献检索领域中被提出的,用关键字检索文章为例,一般关键词的词频越高,文章相关性越强。词频(Term Frequency)就是TF-IDF中的TF
    但是这样的话可能会造成不想关的词汇频率很高的问题,例如汉语中的“的,地,得”等。所以要对其进行忽略。
    齐次,对一些对于检索没有帮助,所以我们要对词赋予权重,通用的词汇赋予较小的权重,预测能力较强的词汇权重较大,因为它们更加容易锁定目标。IDF(Inverse Document Frequency):如果文件数据库中包含词语A的文件越少,则IDF越大,则说明词语A具有很好的类别区分能力。
  3. 加权 BOF:将TF-IDF思想应用在图像检索中,为了更精确地度量相似性,我们也在原来直方图向量的基础上,为向量的每一项增加权重。
  4. 倒排索引:倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。

二.实验步骤

  1. 构造不小于 100张图片的数据集
    计算机视觉——Bag of features图像检索_第4张图片

  2. 针对数据集,做SIFT特征提取
    计算机视觉——Bag of features图像检索_第5张图片

  3. 针对数据集,调用PCV下imagesearch中的文件vocabulary.py,创建一个词汇类,以及在训练图像数据集上训练出一个词汇。train()函数是从文件中读取特征然后将所有特征并在一起,以便进行K-means聚类。根据SIFT特征提取结果,采用k-means算法产生“视觉词典. (visual vocabulary)”。

  4. 针对数据库中每张图片的特征集,根据视觉词典进行量化 以及TF-IDF解算。每张图片转化成特征向量。

  5. 根据IDF原理,计算每个视觉单词的权

  6. 对于输入的检索图像(非数据库中图片),计算SIFT特征,并根据TF-IDF转化成频率直方图/特征向量(步骤1,5)

  7. 建立索引,在索引前要建立一个数据库来保存之前生成的视觉单词形成的频率直方图/特征向量,构造检索图像特征到数据库图像的倒排表,快速索引相关候选匹配图像集。这里使用了SQlite作为数据库。

  8. 加入图像建立图像数据库,实现方法为在pcv包的imagesearch.py 文件里的add_to_index()方法,此方法主要是获取一幅带有特征描述子的图像,投影到词汇上添加进数据库中。

  9. 针对候选匹配图像集与检索图像进行直方图特征匹配。

三.代码实现

(1)提取sift特征,用于建立BOW模型,将数据保存到vocabulary.pkl文件中,在图像的数据集中生成vocabulary.pkl文件:

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift

#获取图像列表
imlist = get_imlist('D:/CVphoto/05241/')
nbr_images = len(imlist)

#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#提取文件夹下图像的sift特征
for i in range(nbr_images):
    sift.process_image(imlist[i], featlist[i])

#生成词汇
voc = vocabulary.Vocabulary('ukbenchtest')
voc.train(featlist,888, 10)
#保存词汇
# saving vocabulary
with open('D:/CVphoto/05241/vocabulary.pkl', 'wb') as f:
    pickle.dump(voc, f)
print ('vocabulary is:', voc.name, voc.nbr_words)

计算机视觉——Bag of features图像检索_第6张图片

(2)将得到的数据模型放入数据库文件testImaAdd.db中:

# -*- coding: utf-8 -*-
import pickle
from PCV.imagesearch import imagesearch
from PCV.localdescriptors import sift
from sqlite3 import dbapi2 as sqlite
from PCV.tools.imtools import get_imlist

#获取图像列表
imlist = get_imlist("D:/CVphoto/05241/")
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

# load vocabulary
#载入词汇
with open('D:/CVphoto/05241/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)
#创建索引
indx = imagesearch.Indexer('testImaAdd.db',voc)
indx.create_tables()
# go through all images, project features on vocabulary and insert
#遍历所有的图像,并将它们的特征投影到词汇上
for i in range(nbr_images)[:888]:
    locs,descr = sift.read_features_from_file(featlist[i])
    indx.add_to_index(imlist[i],descr)
# commit to database
#提交到数据库
indx.db_commit()

con = sqlite.connect('testImaAdd.db')
print (con.execute('select count (filename) from imlist').fetchone())
print (con.execute('select * from imlist').fetchone())



在.py文件夹内生成数据库存储图像信息:
在这里插入图片描述

(3)检索图像:

# -*- coding: utf-8 -*-
import pickle
from PCV.localdescriptors import sift
from PCV.imagesearch import imagesearch
from PCV.geometry import homography
from PCV.tools.imtools import get_imlist

# load image list and vocabulary
#载入图像列表
imlist = get_imlist('D:/CVphoto/05242/')
nbr_images = len(imlist)
#载入特征列表
featlist = [imlist[i][:-3]+'sift' for i in range(nbr_images)]

#载入词汇
with open('D:/CVphoto/05242/vocabulary.pkl', 'rb') as f:
    voc = pickle.load(f)

src = imagesearch.Searcher('testImaAdd.db',voc)

# index of query image and number of results to return
#查询图像索引和查询返回的图像数
q_ind = 0
nbr_results = 20

# regular query
# 常规查询(按欧式距离对结果排序)
res_reg = [w[1] for w in src.query(imlist[q_ind])[:nbr_results]]
print ('top matches (regular):', res_reg)

# load image features for query image
#载入查询图像特征
q_locs,q_descr = sift.read_features_from_file(featlist[q_ind])
fp = homography.make_homog(q_locs[:,:2].T)

# RANSAC model for homography fitting
#用单应性进行拟合建立RANSAC模型
model = homography.RansacModel()
rank = {}

# load image features for result
#载入候选图像的特征
for ndx in res_reg[1:]:
    locs,descr = sift.read_features_from_file(featlist[ndx])  # because 'ndx' is a rowid of the DB that starts at 1
    # get matches
    matches = sift.match(q_descr,descr)
    ind = matches.nonzero()[0]
    ind2 = matches[ind]
    tp = homography.make_homog(locs[:,:2].T)
    # compute homography, count inliers. if not enough matches return empty list
    try:
        H,inliers = homography.H_from_ransac(fp[:,ind],tp[:,ind2],model,match_theshold=4)
    except:
        inliers = []
    # store inlier count
    rank[ndx] = len(inliers)

# sort dictionary to get the most inliers first
sorted_rank = sorted(rank.items(), key=lambda t: t[1], reverse=True)
res_geom = [res_reg[0]]+[s[0] for s in sorted_rank]
print ('top matches (homography):', res_geom)

# 显示查询结果
imagesearch.plot_results(src,res_reg[:8]) #常规查询
imagesearch.plot_results(src,res_geom[:8]) #重排后的结果


四.结果分析

1.实验结果

(1) 当实验数据集中图片尺寸为 4000 ∗ 3000 4000*3000 40003000时,生成的.sift文件如下:
计算机视觉——Bag of features图像检索_第7张图片

(2)创建图像索引indexing:
计算机视觉——Bag of features图像检索_第8张图片

(3)图像检索结果:
在这里插入图片描述
(4)建立RANSAC模型后:
在这里插入图片描述
(5)图像展示

  • 问题

  • 1.图片像素太高会运行很久

  • 2.图片像素太高会导致显示的图片“高糊”

计算机视觉——Bag of features图像检索_第9张图片 计算机视觉——Bag of features图像检索_第10张图片

2.对比实验

  1. 将图片尺寸 4000 ∗ 3000 4000*3000 40003000统一改成 2000 ∗ 1500 2000*1500 20001500后的实验结果:
    在这里插入图片描述在这里插入图片描述计算机视觉——Bag of features图像检索_第11张图片
  2. 将图片尺寸 4000 ∗ 3000 4000*3000 40003000统一改成 1000 ∗ 750 1000*750 1000750后的实验结果:
    在这里插入图片描述
    在这里插入图片描述
    计算机视觉——Bag of features图像检索_第12张图片
  3. 将图片尺寸 4000 ∗ 3000 4000*3000 40003000统一改成 400 ∗ 310 400*310 400310后的实验结果:
    报错:
    File “D:\computervisionjob\photosearch\PCV\imagesearch\vocabulary.py”, line 27, in train
    descr.append(sift.read_features_from_file(featurefiles[i])[1])
    File “D:\computervisionjob\photosearch\PCV\localdescriptors\sift.py”, line 26, in read_features_from_file
    return f[:,:4],f[:,4:] # feature locations, descriptors
    IndexError: too many indices for array
    提示数组的索引太多,不能进行下面的步骤,改变了图像集数量的变量,还是相同的问题。但是将图片尺寸适当增大,就不会报错。

3.总结

  1. 在图片尺寸是 2000 ∗ 1500 2000*1500 20001500时检索出来的图片是几次实验中最清晰的。不同的图片尺寸会生成不同的检索结果。
  2. 视觉词典的规模太少可能无法大面积覆盖可能的情况,但是如果规模过大又会造成过度拟合,且增大了计算量。
  3. SIFT局部描述子能够很好的描述图像纹理信息,但是也有可能造成其他信息的丢失,所以有的算法是进行多种描述子混合。
  4. 重排后的查询结果会比常规查询结果更为准确些,重排用单应性进行拟合建立RANSAC模型,再导入候选图像特征进行排序查询,常规查询只是进行了简单的索引和查询,找到相似即可。
  5. 这种一个特征点对应于一个词的方法显然忽略图像空间上下文(Spatial Context Modeling),没有考虑特征之间的位置关系,人可以利用位置信息来理解图片,但是对于机器这很容易造成词语义的模糊,所以我们需要构建空间结构,更好的Feature Pooling 。

五.实验小结

1.运行时出现错误:

ImportError: No module named pysqlite2

原因:缺少pysqlite文件
下载文件地址:
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyopengl
我的是python2.7的版本,所以下载的是:
在这里插入图片描述
2.在显示图像时会报很多超时的错误,虽然不影响结果,但是也没有找到解决办法。
计算机视觉——Bag of features图像检索_第13张图片
3.如果对多个数据集进行了检索,再次运行代码产生的数据库文件不会覆盖之前的数据库,会出现数据库已经存在的情况,这时如果直接对数据库文件i进行删除会比较困难,可以重命名建立新的数据库文件。

你可能感兴趣的:(计算机视觉——Bag of features图像检索)