标称数据/数值数据的相关性检验:X方和pearson系数(协方差)

1. 数值数据的相关检验可以通过Pearson相关系数来度量

协方差如何计算?

Cov(X,Y)=E((XμX)(YμY)) C o v ( X , Y ) = E ( ( X − μ X ) ( Y − μ Y ) )

这里 X=x1,x2,...,xn,Y=y1,y2,...,yn X = x 1 , x 2 , . . . , x n , Y = y 1 , y 2 , . . . , y n μ μ 是指平均数。

协方差一般以矩阵的形式表示。举个例子,想知道特征X和特征Y的协方差,那就表示为一个2*2的矩阵,如果想知道特征X,Y,Z的协方差,就表示为一个3*3的矩阵。
举例,有三个样本: (2,3) , (5,6) 和 (5,1)
用列表来看是这样的:

样本 特征X 特征Y
样本1 2 3
样本2 5 6
样本3 5 1

那么X = (2,5,5)平均值4,Y = (3,6,1)平均值3.3。
所以在这个2*2的矩阵上,分别是XX,XY,YX,YY的下标。

协方差矩阵 X Y
X X与X的协方差 X与Y的协方差
Y Y与X的协方差 Y与Y的协方差

XX=24,54,5424,54,54T=22+11+11=6 X X = ( 2 − 4 , 5 − 4 , 5 − 4 ) ∗ ( 2 − 4 , 5 − 4 , 5 − 4 ) T = ( − 2 ) ∗ ( − 2 ) + 1 ∗ 1 + 1 ∗ 1 = 6

这里,计算协方差的两个向量都是X,用转置是因为X的每个值都要和X的每个值相乘然后求和。
同理,
XY=24,54,5433.363.313.3T=20.3+12.7+12.3=1 X Y = ( 2 − 4 , 5 − 4 , 5 − 4 ) ∗ ( 3 − 3.3 , 6 − 3.3 , 1 − 3.3 ) T = ( − 2 ) ∗ ( − 0.3 ) + 1 ∗ 2.7 + 1 ∗ ( − 2.3 ) = 1

YX和XY是等值的。因为X和Y的协方差就是Y和X的协方差了。
这样我们就会得到一个矩阵

协方差矩阵 X Y
X 6 1
Y 1 12.67

* Po主懒,手瞎算的,要是错了还希望大家告知哈!
pearson系数是用协方差的值/标准差的乘积

pearsonXY=Cov(X,Y)nσxσy p e a r s o n ( X , Y ) = C o v ( X , Y ) n σ x σ y

套用上面的例子, σX=6/3 σ X = 6 / 3 , σY=12.67/3 σ Y = 12.67 / 3
则pearson(X,Y) = 13212.67 1 3 ∗ 2 12.67 很显然,我编的这组数据没啥相关性。(也有可能我算错了)

pearson(X,X) = 6322 6 3 ∗ 2 ∗ 2 = 1。这是必然的,因为自己和自己一定是完全相关。

pearson(Y,Y) = 12.67/3 12.67 / 3 * 12.67/3 12.67 / 3 = 13.48/3

则pearson相关系数的矩阵如下

相关系数矩阵 X Y
X 1 13212.67 1 3 ∗ 2 12.67
Y 13212.67 1 3 ∗ 2 12.67 1

pearson相关系数可以度量两个特征的相关程度,值为【-1,1】1代表正相关,-1代表负相关,需要注意的是,相关性并不代表因果。

2. 标称数据的 X2 X 2 相关检验

公式如下:

X2=i=1Ij=1J(OijEij)2Eij X 2 = ∑ i = 1 I ∑ j = 1 J ( O i j − E i j ) 2 E i j

Oij O i j 代表实际观测值, Eij E i j 是期望观测值 =count(A=ai)(countB=bj)n = c o u n t ( A = a i ) ( c o u n t B = b j ) n

用书上的例子,调查1500个人,有性别和看书类型两种特征。

小说 250(90) 200(360)
非小说 50(210) 1000(840)

则(男,小说)的期望频率:

E11=count()count()1500=3004501500=90 E 11 = c o u n t ( 男 ) ∗ c o u n t ( 小 说 ) 1500 = 300 ∗ 450 1500 = 90
,就如括号中显示。
然后计算 X2 X 2
X2=(25090)290+(50210)2210+(200360)2360+(1000840)2840=507.93 X 2 = ( 250 − 90 ) 2 90 + ( 50 − 210 ) 2 210 + ( 200 − 360 ) 2 360 + ( 1000 − 840 ) 2 840 = 507.93

该表为2*2表,自由度为(2-1)(2-1)=1
* 自由度计算: X2 X 2 统计检验假设两个特征AB 独立,基于显著水平,则具有自由度 (A-1)(B-1)。如果可以 拒绝该假设(也就是说认为不独立),则说AB相关。
好的,接下来就是查表了( X2 X 2 分布的百分比表)。在自由度为1,在0.001置信水平下,拒绝假设的值为10.828。我们计算出的值为507.93,远远大于该值,因此拒绝二者独立的假设。也就是说我们认为性别与阅读类别有关。

检测相关性可以用于关联分析和特征筛选等等。
参考资料:
《数据挖掘概念与技术(中文第三版)》

你可能感兴趣的:(数据挖掘)