目录
“工欲善其事,必先利其器”,如果把数据建模比作伐木,那么前期的数据探索性分析则是细致的“霍霍磨刀”,有效的探索性分析能够帮助我们捕捉到数据之间的关联效应,为之后的特征工程、模型构建奠定基础。而在探索性分析的各种招式中,相关性分析往往有着一招致敌的奇效,下面简单地介绍一些常见的相关系数。
顾名思义,相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度,从多个角度立体地剖析相关性分析有助于我们更立体地掌握相关性分析:
连续变量与连续变量(Pearson Spearman Rank Kendall Rank)
连续变量与分类变量(Spearman Rank Kendall Rank)
皮尔逊相关系数适用于:
随机变量、的皮尔逊相关系数计算公式如下:
Cov(X,Y) C o v ( X , Y ) 为随机变量 X X 、 Y Y 的协方差, (σX,σY) ( σ X , σ Y ) 分别表示随机变量 X X 、 Y Y 的标准差, ρX,Y∈[0,1] ρ X , Y ∈ [ 0 , 1 ] ,越大代表随机相关性越强。
Spearman秩相关系数适用于:
随机变量 X X 、 Y Y 的Spearman秩相关系数 ρS ρ S 计算如下,对原始随机变量 xi x i 、 yi y i 降序排序,记 dxi d i x 、 dyi d i y 为原始 xi x i 、 yi y i 在排序后列表中的位置, dxi d i x 、 dyi d i y 称为 xi x i 、 yi y i 的秩次,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在 X X (极为 Tx T x )或相持在变量 Y Y 上(记为 Ty T y ),秩次差 di=dxi−dyi d i = d i x − d i y 。Spearman秩相关系数为:
举个例子:
xi x i | yi y i | dxi d i x | dyi d i y | di d i |
---|---|---|---|---|
4 | 7 | 5 | 6 | 1 |
44 | 67 | 1 | 1 | 0 |
15 | 9 | 4 | 5 | 1 |
23 | 54 | 2 | 2 | 0 |
18 | 21 | 3 | 4 | 1 |
2 | 33 | 6 | 3 | -3 |
对于上表数据,算出Spearman秩相关系数为:1-6*(1+1+1+9)/(6*35)=0.6571
肯德尔相关系数适用于:
肯德尔系数的定义: n n 个同类的统计对象按特定属性排序,其他属性通常是乱序的。 P P 为和谐对(变量大小顺序相同的样本观测值)的个数、 Q Q 为 f f 不和谐对(变量大小顺序相同的样本观测值), n n 为随机变量容量。一对观测值中,若有一个变量或两个变量的值对应相等,则该对观测值是相持的,相持还分为在 X X (记为 Tx T x )或相持在变量上 Y Y (记为 Ty T y ),因此公式可以表示为:
Kappa一致性系数适用于:
随机变量 X X 、 Y Y 的 Kappa K a p p a 一致性系数 K K 计算公式如下:
N N 为随机变量容量, K K 为一致预测, nij n i j 为细格预测数,也可以表示为:
举例:
预测\实际 | A A | B B | C C |
---|---|---|---|
A A | 239 | 21 | 16 |
B B | 16 | 73 | 4 |
C C | 6 | 9 | 280 |
p0=239+73+280664=0.8916,pc=261∗276+103∗93+300∗295664∗664=0.3883,K=0.8916−0.38831−0.3883 p 0 = 239 + 73 + 280 664 = 0.8916 , p c = 261 ∗ 276 + 103 ∗ 93 + 300 ∗ 295 664 ∗ 664 = 0.3883 , K = 0.8916 − 0.3883 1 − 0.3883
卡方检验适用于:
卡方检验是以 χ2 χ 2 分布为基础的一种常用假设检验方法,它的无效假设 H0 H 0 是:两个分类变量之间无关。
χ2=∑ki=1(Ai−npi)2npi χ 2 = ∑ i = 1 k ( A i − n p i ) 2 n p i , A_i为水平 i i 的观察频数, n n 为总频数, pi p i 为水平 i i 的期望频率。 k k 为单元格数。当 n n 比较大时, χ2 χ 2 统计量近似服从个自由度 k−1 k − 1 的卡方分布。
举例:
组别 | 有效 | 无效 | 合计 |
---|---|---|---|
男 | 14(13.6) | 20(21.9) | 34 |
女 | 16(16.4) | 25(24.6) | 41 |
合计 | 30 | 45 | 75 |
第1行1列: 34×30/75=13.6
第1行2列: 34×45/75=21.9
第2行1列: 41×30/75=16.4
第2行2列: 41×45/75=24.6
χ2=(14−13.6)213.6+(20−21.9)221.9+(16−16.4)216.4+(25−24.6)224.6=0.1929 χ 2 = ( 14 − 13.6 ) 2 13.6 + ( 20 − 21.9 ) 2 21.9 + ( 16 − 16.4 ) 2 16.4 + ( 25 − 24.6 ) 2 24.6 = 0.1929
不能拒绝原假设,认为随机变量不相关。
假设二分类变量,如下,值计算如下:
性别 | 男 | 女 | 合计 |
---|---|---|---|
有效 | a | b | a+b |
无效 | c | d | c+d |
合计 | a+c | b+d | a+b+c+d |
p=Caa+bCcc+dCa+cn=(a+b)!(c+d)!(a+c)!(b+d)!a!b!c!d!n! p = C a + b a C c + d c C n a + c = ( a + b ) ! ( c + d ) ! ( a + c ) ! ( b + d ) ! a ! b ! c ! d ! n !