图像检索的各个模块以及原理分析

一、图像特征提取(SIFT、SURF)
在图像处理中,常用的图像特征包括:颜色、形状、纹理以及空间关系等特征,常见的图像空间有RGB以及HSV。在图像匹配中,常提取图像的SIFT(Scale Invariance Feature Transform)和SURF(Speed Up Robust Feature)特征,下面是SIFT与SURF的优缺点:
(1)SIFT:比较稳定、特征点较多、信息量大,可以快速进行特征点之间的匹配,最大的缺点就是计算复杂度较高,维度为128维。
(2)SUFT:快速鲁棒特征,是对SIFT特征的一种改进,不需要像SIFT那样使用RANSAC(RANdom SAmple Consensus)剔除伪匹配点,维度为64维。
二、聚类(生成码书或者生成视觉词典)
通常通过无监督(unsupervised)聚类学习算法进行离线训练视觉词典,典型的无监督聚类学习算法包括K-means,Hierarchical k-means (HKM) and Approximate k-means (AKM)。
(1)下面介绍一下K-means聚类的算法步骤:假设有n个样本,想聚成k类
①初始化:从n个样本中随机抽取k个,作为最初始的聚类中心。
②迭代:计算每个样本到这k个中心的距离,离谁最近就归为哪一类(欧氏距离)。
③这样就得到k类,对新的每一类计算类中心,计算方法就是此类中包含的所有样本的均值。
④重复②和 ③步骤,即计算新的类中心,每个样本重新进行归类,直到分类没有变化为止。
(2)迭代的终止条件: ①没有(或者最小数目)对象被重新分配给不同的聚类;②没有(最小数目)聚类中心再发生变化; ③误差平方和局部最小。
(3)优缺点:
1)优点:确定的k个划分,达到平方误差最小,当聚类密集时,且类与类之间区别明显时,效果较好。当处理大的数据集时,算法相对可伸缩和高效,计算复杂度为O(nkt),其中n是数据对象的数目,t是迭代次数,k< 2)缺点:①k是事先给定的,k值的选定难以估计,很多时候我们并不事先知道给定的数据集分成多少类最合适; ②初始聚类中心的选择,初始值的选择对结果影响很大, 一 旦选择的不好,可能无法得到有效的聚类结果;③迭代过程中需要不断地进行样本调整,不断计算调整后新的聚类中心,数据量非常大,算法复杂度也较高。
三、量化过程
利用二中通过聚类生成的码书,对图像的特征(典型的SIFT特征)进行量化,以SIFT特征为例,将图像中的SIFT描述子利用kNN(k Nearest Neighbor)量化到离其最近邻的 k个视觉单词中,因此图像的128的SIFT特征矢量就可以转化为一维矢量,大大减少了计算效率,最后在使用倒排索引进行检索时,每个视觉单词使用tf-idf进行加权。
四、机器视觉中常用的分类器
其实上面用到的k近邻就是机器学习中分类器的其中一种,下面简要介绍一下几种分类器:
(1) k近邻:
①优点:“近朱者赤,近墨者黑”,kNN是无参数训练模型。
②缺点:k是人为设定的,且该算法复杂度比较高。
(2) SVM(Support Vector Machine,支持向量机):
①优点:SVM通过支撑面做分类,也就是说不需要计算所有样本,高维数据中只需要取少量样本,节省内存空间。
②缺点:计算代价比较大,SVM将低维无序杂乱的数据通过核函数映射到高维空间,通过超平面将其分开。
(3)Naive Bayes(朴素贝叶斯)
①缺点:这一模型适合用在文本样本上,采用了朴素贝叶斯原理假设样本间是相互独立的,因此在关联比较强的样本上效果很差
②优点:也是基于其独立的假设,概率计算大大简化,节省内存和时间。
(4)linear regression(线性回归)
①缺点:顾名思义,linear regression是假设数据服从线性分布的,这一假设前提也限制了该模型的准确率,因为现实中由于噪声等的存在很少有数据是严格服从线性 的。
②优点:基于这种假设,linear regression可以通过normal equation求闭合解的方式求得y_predict
(5)logistic regression(逻辑回归)
①缺点:从线性回归衍生而来,将线性的值域通过sigmoid函数压缩在(0,1)范围内,缺点同linear regression,且也是要求数据是无缺失的。
②优点:有两种方式求解,精确的解析解和SGD算法估计,在要求准确性时使用解析解,在要求时间效率时使用SGD 迭代。
(6)随机森林(RF,Random Forest):
1)一种机器学习(ML)算法,通过集成学习的思想,将多棵树进行集成的一种算法,它的基本单元是决策树(decision tree),属于ML的一个分支——集成学习方法 (Ensemble Learning)方法。从直观的角度解释,每棵决策树都是一个分类器(针对分类的情况),对于一个输入样本 ,N棵树会有N个分类结果,而RF集成所有 分类结果的投票,将投票次数最多的类别指定为最终的输出。
2)随机森林的随机性表现在:①用随机的方式建立一个森林;②每一个低纬的空间都可以看成是原feature的一个线性组合,由高维到低维的转换是随机的。

还未整理完,后期继续整理。

你可能感兴趣的:(图像检索的各个模块以及原理分析)