1.K-D树
概念:一种分割k维数据空间的数据结构。
构造过程:
(1)针对k条坐标轴方向,分别在每个方向上统计所有点的数据方差。并在k个方差选择最大的,将其方向作为分割方向。(数据方差大表明沿该坐标轴方向上的数据分散得比较开,在这个方向上进行数据分割有较好的分辨率。)
(2)选出分割方向上中间的一点,用其将数据点分割成左右两部分。
(3)对左右两部分数据重复(1)(2)操作,直至每个子空间中只剩一个数据点。
查询步骤:
(1)从根节点开始,通过二叉搜索,查找到与目标点距离最近的一点A,并在栈中顺序存储已经遍历的节点。
(2)以目标点为圆心,以两点间距离为半径作圆,若与父节点的分割线(超平面)相交,则对分割线另一边进行二叉搜索。
(3)若不相交,则按栈中存储的节点进行回溯,若当前节点比A距离更近,则更新A。
(4)直至回溯到root点,此时的A点即为最近邻接点。
2.Bag of words
概念:该模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档。近年来,BoW模型被广泛应用于计算机视觉中。与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)。文本方面:例如有下面两句话:
John likes to watch movies. Mary likes movies too.
John also likes to watch football games.
可生成如下词典:
[“John”, “likes”, “to”, “watch”, “movies”, “also”, “football”, “games”, “Mary”, “too”]
根据这个词典,可以将这两句话转换成两个向量:
[1, 2, 1, 1, 2, 0, 0, 0, 1, 1]
[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]
这两个向量共包含10个元素,其中第i个元素表示词典中第i个单词在句子中出现的次数。因此BoW模型可认为是一种统计直方图(histogram)。在文本检索和处理应用中,可以通过该模型很方便的计算词频。
计算机视觉方面:将图像可以类比作文档,图像中的特征点类比成词汇,那么图像的BoW模型即是“图像中所有图像块的特征点得到的直方图”.建立BoW模型主要分为如下几个步骤:
(1)特征提取
假设有N张图像,第i张图像可由n(i)个特征点表示,则总共能得到sum(n(i))个特征点。
(2)生成词典/码本(codebook)
对上一步得到的特征向量进行聚类(可以使用K-means等聚类方法),得到K个聚类中心,用聚类中心构建码本。
(3)根据码本生成直方图
对每张图片,通过最近邻计算该图片的每个特征点应该属于codebook中的“哪一类”特征点,从而得到该图片对应于该码本的BoW表示。匹配两个图片的直方图,就可判断其相似度。
3.TF-IDF
概念:term frequency–inverse document frequency是一种用于信息检索与数据挖掘的常用加权技术。
TF:词频,计算方法:,分子为词条i在文档j中出现的次数,分母为文档j所有词条出现的总次数。
IDF:逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量,计算方法:
分子为库中文档数目,分母为库中所有包含词条i的文档数目。
TF-IDF:即为TF*IDF,以此来计算某个词条的权重,形式较多,上面仅列出其中一种表示。
4.K-means clustering
概念:把数据分成几组,按照定义的测量标准,同组内数据与其他组数据相比具有较强的相似性,这就叫聚簇。聚簇是数据挖掘最基础的操作,但现在存在的一些传统聚簇方法已不能满足处理复杂类型的、高维的、任意分布形状的数据集合的需要。
k-means算法就是用得最多的一种传统的聚簇方法,是一种划分法,相似度的计算是求数据对象与簇中心的距离,与簇中心距离近的就划为一个簇。工作流程:
(1)随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。
(2)对剩余的每个对象,根据其与各个簇中心的距离,将其赋给最近的簇。
(3)重新计算每个簇的平均值,求出新的簇中心,再重新聚簇。
(4)不断重复(2)(3),直到准则函数收敛。
分析:该算法的时间复杂度是O(nkt),其中n是所有对象数目,k是簇的数目,t是迭代次数。它的效率比较高;缺点是只能处理数值型数据,不能处理分类数据,对例外数据非常敏感,不能处理非凸面形状的聚簇。
5.SIFT
6.SVM