相关系数

在处理数据关系,建立模型时,我们往往会先对于可能影响目标的特征进行筛选,因为并不是所有的特征都对于我们的目标存在很大的影响。

1.对于相关系数有如下的理解:
如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
(1)、当相关系数为0时,X和Y两变量无关系。
(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

2.相关系数方法:
1)欧几里得距离:
其表示向量间的真实距离,可以用于表示两个特征见的间的相关性,但存在的问题两个特征之间的差异可能会很大。比如一个向量的度量范围为0-1000,另一个为0-1,则计算其欧氏距离作为相关系数会得到极大的误差。因此这里引入了皮尔逊相关系数。
相关系数_第1张图片
2)皮尔逊相关系数(Pearson correlation coefficient)
为解决不同特征向量间度量差距较大的问题,这里引入了皮尔逊相关系数。
首先解释一下协方差,协方差代表两个随机变量间的变化方向相同程度。
相关系数_第2张图片
其中若协方差大于0则代表两个变量的变化趋势相同,若协方差小于0则代表两个变量的变化趋势相反,若协方差为0则代表两变量不相关。
皮尔逊相关系数计算方法为两变量的协方差除以他们的标准差,计算公式如下:
在这里插入图片描述
通过这种方式可以获得两变量间的相关性,同时两变量不用去考虑它们之间的度量范围。
3)cosine相关系数
该相关系数来自于两向量间的乘积余弦值:
相关系数_第3张图片
其中,cos值越接近于1代表两变量的方向越接近,也代表两个变量相似度越大。
在这里插入图片描述
该相似度同样会受到变量度量范围的影响。

4.Tanimoto相似度
该相似度是Cosine相似度的扩展,广泛应用于计算文档数据的相似度。
相关系数_第4张图片

参考文章:https://blog.csdn.net/weixin_43249938/article/details/83045847

你可能感兴趣的:(特征学习,相关系数,机器学习)