1. 数值数据的相关检验可以通过Pearson相关系数来度量
协方差如何计算?
Cov(X,Y)=E((X−μX)(Y−μY)) C o v ( X , Y ) = E ( ( X − μ X ) ( Y − μ Y ) )
这里
X=x1,x2,...,xn,Y=y1,y2,...,yn X = x 1 , x 2 , . . . , x n , Y = y 1 , y 2 , . . . , y n ,
μ μ 是指平均数。
协方差一般以矩阵的形式表示。举个例子,想知道特征X和特征Y的协方差,那就表示为一个2*2的矩阵,如果想知道特征X,Y,Z的协方差,就表示为一个3*3的矩阵。
举例,有三个样本: (2,3) , (5,6) 和 (5,1)
用列表来看是这样的:
样本 |
特征X |
特征Y |
样本1 |
2 |
3 |
样本2 |
5 |
6 |
样本3 |
5 |
1 |
那么X = (2,5,5)平均值4,Y = (3,6,1)平均值3.3。
所以在这个2*2的矩阵上,分别是XX,XY,YX,YY的下标。
协方差矩阵 |
X |
Y |
X |
X与X的协方差 |
X与Y的协方差 |
Y |
Y与X的协方差 |
Y与Y的协方差 |
XX=(2−4,5−4,5−4)∗(2−4,5−4,5−4)T=(−2)∗(−2)+1∗1+1∗1=6 X X = ( 2 − 4 , 5 − 4 , 5 − 4 ) ∗ ( 2 − 4 , 5 − 4 , 5 − 4 ) T = ( − 2 ) ∗ ( − 2 ) + 1 ∗ 1 + 1 ∗ 1 = 6
这里,计算协方差的两个向量都是X,用转置是因为X的每个值都要和X的每个值相乘然后求和。
同理,
XY=(2−4,5−4,5−4)∗(3−3.3,6−3.3,1−3.3)T=(−2)∗(−0.3)+1∗2.7+1∗(−2.3)=1 X Y = ( 2 − 4 , 5 − 4 , 5 − 4 ) ∗ ( 3 − 3.3 , 6 − 3.3 , 1 − 3.3 ) T = ( − 2 ) ∗ ( − 0.3 ) + 1 ∗ 2.7 + 1 ∗ ( − 2.3 ) = 1
YX和XY是等值的。因为X和Y的协方差就是Y和X的协方差了。
这样我们就会得到一个矩阵
协方差矩阵 |
X |
Y |
X |
6 |
1 |
Y |
1 |
12.67 |
* Po主懒,手瞎算的,要是错了还希望大家告知哈!
pearson系数是用协方差的值/标准差的乘积
pearson(X,Y)=Cov(X,Y)nσxσy p e a r s o n ( X , Y ) = C o v ( X , Y ) n σ x σ y
套用上面的例子,
σX=6/3−−−√ σ X = 6 / 3 ,
σY=12.67/3−−−−−−√ σ Y = 12.67 / 3
则pearson(X,Y) =
13∗2√12.67√ 1 3 ∗ 2 12.67 很显然,我编的这组数据没啥相关性。(也有可能我算错了)
pearson(X,X) = 63∗2√∗2√ 6 3 ∗ 2 ∗ 2 = 1。这是必然的,因为自己和自己一定是完全相关。
pearson(Y,Y) = 12.67/3−−−−−−√ 12.67 / 3 * 12.67/3−−−−−−√ 12.67 / 3 = 13.48/3
则pearson相关系数的矩阵如下
相关系数矩阵 |
X |
Y |
X |
1 |
13∗2√12.67√ 1 3 ∗ 2 12.67 |
Y |
13∗2√12.67√ 1 3 ∗ 2 12.67 |
1 |
pearson相关系数可以度量两个特征的相关程度,值为【-1,1】1代表正相关,-1代表负相关,需要注意的是,相关性并不代表因果。
2. 标称数据的 X2 X 2 相关检验
公式如下:
X2=∑i=1I∑j=1J(Oij−Eij)2Eij X 2 = ∑ i = 1 I ∑ j = 1 J ( O i j − E i j ) 2 E i j
Oij O i j 代表实际观测值,
Eij E i j 是期望观测值
=count(A=ai)(countB=bj)n = c o u n t ( A = a i ) ( c o u n t B = b j ) n
用书上的例子,调查1500个人,有性别和看书类型两种特征。
|
男 |
女 |
小说 |
250(90) |
200(360) |
非小说 |
50(210) |
1000(840) |
则(男,小说)的期望频率:
E11=count(男)∗count(小说)1500=300∗4501500=90 E 11 = c o u n t ( 男 ) ∗ c o u n t ( 小 说 ) 1500 = 300 ∗ 450 1500 = 90
,就如括号中显示。
然后计算
X2 X 2
X2=(250−90)290+(50−210)2210+(200−360)2360+(1000−840)2840=507.93 X 2 = ( 250 − 90 ) 2 90 + ( 50 − 210 ) 2 210 + ( 200 − 360 ) 2 360 + ( 1000 − 840 ) 2 840 = 507.93
该表为2*2表,自由度为(2-1)(2-1)=1
* 自由度计算:
X2 X 2 统计检验假设两个特征AB
独立,基于显著水平,则具有自由度
(A-1)(B-1)。如果可以
拒绝该假设(也就是说认为不独立),则说AB相关。
好的,接下来就是查表了(
X2 X 2 分布的百分比表)。在自由度为1,在0.001置信水平下,拒绝假设的值为10.828。我们计算出的值为507.93,远远大于该值,因此拒绝二者独立的假设。也就是说我们认为性别与阅读类别有关。
检测相关性可以用于关联分析和特征筛选等等。
参考资料:
《数据挖掘概念与技术(中文第三版)》