模式相似性测度笔记 模式识别备考(一)

前言:

下周就要模式识别考试了,临时抱抱佛脚丫子,发现有个题是相似性测度定义公式题。目测百分之百要考,所以进行总结一下,让自己知道咋回事。

(一)欧式距离

最常见的一种距离公式

定义:设X1,X2是两个N维的模式样本向量。X1和X2之间的欧式距离可以表示为:

在这里插入图片描述

(二)马氏距离

是对欧式距离的一种修正,解决了欧式距离中各个维度尺度不一致且相关的问题。(相关???)

定义:单个数据样本到均值样本的马氏距离:

中间是协方差矩阵的转置

数据点X,Y之间的马氏距离:

感觉比欧式距离就多了一个中间的协方差矩阵的转置

由于看到这个公式时,期望,方差,协方差,相关系数在我脑子里打转,而我分不清谁是谁了,所以参考了其他博客先预处理一下这些常见知识点。

(1)期望:用来描述随机变量的平均大小(x就像是一门课的得分,p(x)就像是每门课的比重,加权最后得到这个人的平均水平)

离散随机变量期望:
在这里插入图片描述
连续随机变量期望:
在这里插入图片描述

(2)方差:用来描述随机变量在均值周围的分散程度(就像两个人平均水平差不多,但一个人比较稳定,另一个人发挥时好时坏,波动太大,那么方差就较大)

离散随机变量方差:
在这里插入图片描述
连续随机变量方差:
在这里插入图片描述
标准差就是方差的算术平方根:
在这里插入图片描述
常常进行运算的时候会用到化简公式:
在这里插入图片描述

(3)协方差:描述两个变量之间的线性相关性,协方差为正说明两个变量是正相关,为负说明两者是负相关,为0说明线性无关,但是不代表不相关或者相互独立。

公式:
可以发现当X=Y时,协方差就是方差。
协方差矩阵:描述多维随机变量之间的线性相关性,一般用在这里插入图片描述表示。矩阵的对角线就是每个随机变量的方差
在这里插入图片描述
但是因为不同的随机变量的量纲是不同的,所以用协方差只能看出两个变量之间是正相关还是负相关,但是不能够衡量这种相关性谁强谁弱。所以有了相关系数。

(4)相关系数:是一种剔除了两个随机变量之间的量纲影响,标准化后的协方差

定义:
在这里插入图片描述
相关系数的取值就在[-1,1]上了。
接下来看马氏距离是怎么修正维度尺度不一致的。
如图一,当用欧氏距离时会发现,A和B距离聚类中心的距离相同时,其实A更容易被认为是离群点,而B应该更大的可能性属于这一类,所以通过欧式距离进行分类,不恰当。而第二幅图利用了马氏距离,其实是建立了一个新的坐标系,并在坐标系上根据方差进行了放缩,就可以达到如图二所示,此时A,B到聚类中心的马氏距离相同,分类也更为准确。
模式相似性测度笔记 模式识别备考(一)_第1张图片
具体的公式推导,最后可以得到马氏距离中间的那个乘上协方差矩阵的逆(相当于根据方差来进行放缩,使尺度一致,这样更好记)。具体的推导,见知乎大佬推导。
知乎上的解释
知乎解释的解读

(三)明氏距离 (我目前不知道应用在哪)

模式相似性测度笔记 模式识别备考(一)_第2张图片
m等于2 的时候,可以看出正好是欧氏距离
m等于1的时候,称为街区距离,就是分量相减的绝对值,如果此时在二维空间里就可以如图所示:
模式相似性测度笔记 模式识别备考(一)_第3张图片

(四)汉明距离 可以用来描述两个二值数组(向量)相同的位数(相似度)

Xi,Xj都是n维的二值向量(取值为1或者-1)

公式:在这里插入图片描述
如果Dh为n,说明完全不同,为0说明完全相似。

看到一个应用是,用来判断两张图片相似程度的时候,使用汉明距离的方法来比较两张图片的指纹。很有意思。

汉明距离应用

(五)角度相似性函数

就是两个模式向量夹角的余弦用来做距离:
模式相似性测度笔记 模式识别备考(一)_第4张图片

整理完了,希望考试的时候能记住,也不是什么难的问题。就感觉自己连协方差都忘记了,太他喵的羞愧了。整理完心情好多了!爽

你可能感兴趣的:(模式识别)