特征选择----皮尔逊(Pearson)相关系数

目录

1、皮尔逊(Pearson)相关系数

2、斯皮尔曼spearman相关系数

斯皮尔曼相关系数定义

corr()函数的用法

corr可选的方式有三种:

 1)pearson:相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。

2)spearman:非线性的,非正太分析的数据的相关系数 


1、皮尔逊(Pearson)相关系数

1、协方差能完美的解释两个变量之间相关的方向,但在解释强度上却不太行,举个例子:每个变量都是有量纲的,这里假设变量x的量纲为距离,可以是米,也可以是千米,甚至可以是光年,针对协方差的量纲问题,统一除以同样的量纲就可以搞定。正态分布标准化需要除以标准偏差,标准偏差的量纲与变量一致,这样就可以消除量纲了。让每一个变量x与变量x的均值的差,都除以x的标准偏差Sx,变量y也同理,则有以下关系式:(该关系式即为皮尔逊相关系数,简称相关系数,可以认为是协方差的标准化)
特征选择----皮尔逊(Pearson)相关系数_第1张图片

上图中,r即为相关系数,Sxy为协方差。

特征选择----皮尔逊(Pearson)相关系数_第2张图片

3、由1、2解读可知,Pearson相关系数的范围是在[-1,1]之间,下面给出Pearson相关系数的应用理解:

假设有X,Y两个变量,那么有:

(1) 当相关系数为0时,X变量和Y变量不相关;

(2) 当X的值和Y值同增或同减,则这两个变量正相关,相关系数在0到1之间;

(3) 当X的值增大,而Y值减小,或者X值减小而Y值增大时两个变量为负相关,相关系数在-1到0之间。

注:相关系数的s绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。通常情况下通过以下取值范围判断变量的相关强度:

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相或无相关

2、斯皮尔曼spearman相关系数

斯皮尔曼相关系数定义

X和Y为两组数据,其斯皮尔曼(等级)相关系数:

特征选择----皮尔逊(Pearson)相关系数_第3张图片

特征选择----皮尔逊(Pearson)相关系数_第4张图片

特征选择----皮尔逊(Pearson)相关系数_第5张图片

根据公式可以计算出斯皮尔曼相关系数为0.875。
注:斯皮尔曼相关系数>0为正相关;斯皮尔曼相关系数<0为负相关。越接近1和-1相关性越强。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。

corr()函数的用法

corr可选的方式有三种:

特征选择----皮尔逊(Pearson)相关系数_第6张图片

 1)pearson:相关系数来衡量两个数据集合是否在一条线上面,即针对线性数据的相关系数计算,针对非线性数据便会有误差。

2)spearman:非线性的,非正太分析的数据的相关系数 

特征选择----皮尔逊(Pearson)相关系数_第7张图片

3)kendall:用于反映分类变量相关性的指标,即针对无序序列的相关系数,非正太分布的数据 

特征选择----皮尔逊(Pearson)相关系数_第8张图片

 其中corr()函数的参数为空时,默认使用的参数为pearson

特征选择----皮尔逊(Pearson)相关系数_第9张图片

 上面的结果验证了,pearson对线性的预测较好,对于幂函数,预测差强人意。

你可能感兴趣的:(不良分析,菜菜机器学习笔记,python)