相似性度量方法:相关系数和相似系数

一.变量相似度度量--相关系数

首先,要注意相关系数和相似系数二者都用来度量相似度,分别度量变量间的相似度和样本(对象)间的相似度。

  • 相关系数是用来描述数据属性(特征)的,取值在[-1,1]之间,特征相关系数绝对值越大,特征越线性相关。一般说的相关系数指的是线性相关系数,并且注意两个变量相互独立,则相关(线性)系数等于0,但相关系数=0,两变量不一定相互独立,因为它们可能存在非线性关系。
  • 相似系数是用来描述数据对象(样本)的,样本的相似性通常用距离度量,即比较样本的邻近度,取值在[0,1]之间,距离越大相似性越小。

皮尔逊相关系数

大学课本概率轮与数理统计

定义:若(X,Y)是一个二维随机变量,则称E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差,记为Cov(X,Y)。即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

性质:Cov(aX,bY)=abCov(X,Y),(a,b是常数)

相关系数

协方差可以在一定程度上反映X与Y相互间的联系,但它还受X与Y本身数值大小的影响,譬如说,令X与Y各自增大k倍,即X1=kX,Y1=kY,这时X1与Y1间的相互联系和X与Y间的相互联系应该还是一样的,可是反映这种联系的协方差却增大了k的平方倍,即

为了克服这一点,我们引入相关系数的定义:

定义:若(X,Y)是一个二维随机变量,则称为随机变量X与Y的相关系数(即皮尔逊相关系数),记为。即

由协方差的性质,我们可以看出,相关系数就是标准化随机变量的协方差。只差一个常数倍,即

相似性度量方法:相关系数和相似系数_第1张图片

定理

由书本上的知识得,协方差本身就可以反映各变量之间的相关性(是否线性相关),但易受不同取值范围变量的干扰,而皮尔逊相关系数本质上是对数据标准化处理后的协方差。

注意:标准化处理就是一种对样本数据在不同维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。

补充:相关系数只是反映变量间是否存在线性关系,只能表明是否线性相关,而不能通过线性相关与否来证明是否独立,因为变量间还可能存在非线性关系。

皮尔逊相关系数相当于对变量做标准化(去中心化+缩放)后的然后计算协方差

 余弦距离

变量xy的余弦距离等于变量xy之间的夹角的余弦。当xy非常接近时,其内积也会很大

相似性度量方法:相关系数和相似系数_第2张图片

注意:

  • 计算余弦相关度时,需要检查输入向量是否为0向量,否则会报错
  • 余弦相关度和夹角成反比,向量夹角越小,变量相关度越高

余弦距离相当于对变量缩放后的变量内积结果

修正余弦

相似性度量方法:相关系数和相似系数_第3张图片

修正余弦相当于 对变量去中心化+缩放处理后变量的内积结果

        比较变量之间的相关度前,首先要分析不同变量的量纲差异性以及数据分布差异性,若差异性较大,则需要对数据做标准化处理,此时这三种度量方法输出等价。

使用相关性时可能的风险

  • 伪相关性:例如统计研究发现,冰淇淋销量最高的时候,就是公共泳池的溺水事故发生得最多的时候。然而,这有可能是天气炎热造成冰淇淋销量和公共泳池的溺水事故增多。若视冰淇淋的销量遇为溺水事故的成因,可能就被伪相关性误导了。

    即两个变量可能会受第三者影响,从而在其间得出误导性的相关系数,当在统计上消除第三者的影响时,两个变量则可能表现不相关。例如:冬天的时候(消除夏天气候炎热这一影响),某品牌发布了一款特别好吃的冰激凌,销量大增,但此时去游泳池的人比夏天的的人数少,溺水事故也少,此时冰激凌和公共泳池的溺水事故就可能表现不相关
  • 相关性的使用范围/对象受限:例如:两个变量在整体上表现是不线性相关的(类别不平衡),但对于部分样本/群体(同一类别)是相关的,即特征仅仅某些群体来说是有用指标。

二、样本相似性度量--相似系数

欧氏距离-衡量相似度

距离越小,越相似。距离为0时样本相似度为1。

欧斯距离对变量的取值范围很敏感,如果不同变量(维度、特征)的取值范围差别很大时,那么结果很容易被某个变量决定。

解决办法:对数据各变量(特征)作标准化处理,或者加权处理。

相似度系数常用来构建相似度矩阵。


使用核函数衡量相似度

 核函数可以衡量两个向量的相似度,常用核函数有高斯核、拉普拉斯核、多项式核、sigmoid核

  1. 用高斯核衡量相似度其实和距离衡量相似度原理一样,只不过做了一下变形

    相似性度量方法:相关系数和相似系数_第4张图片

  2. 同理还有拉普拉斯核衡量相似度的形式如下

  3. 多项式核衡量相似度的形式如下,和余弦相似度类似,当xy非常接近,其内积也会很大(注意:这个性质前提是向量x和y已单位化处理。单位化后的向量,比较是否相似其实就是比较方向(向量夹角),两向量夹角为0即重合时,显然最相似)

  4. sigmoid核衡量相似度的形式如下

使用相关系数衡量样本的相似度

        已知相关系数的取值范围为[-1,1],相似系数的取值范围为[0,1],若我们想使用相关系数衡量样本的相似度如皮尔逊、余弦相关系数时,只需对皮尔逊相关系数或余弦相关系数作归一化处理,使其取值范围为0到1之间,如下所示:

你可能感兴趣的:(机器学习,机器学习)