对皮尔逊相关系数进行假设检验

对皮尔逊相关系数进行假设检验

第一步:提出原假设和备择假设

假设我们计算出一个皮尔逊相关系数r,我们想检验一下它是否显著地异于0。那我们可以这样设定原假设和备择假设:
H 0 : r = 0 , H 1 : r ≠ 0 H_0:r=0,H_1:r\neq 0 H0:r=0,H1:r=0

第二步:构造统计量

在原假设成立的条件下,利用我们要检验的量构造出一个符合某一分布的统计量
**注1:**统计量相当于我们要检验的一个函数,里面不能有其他的随机变量
**注2:**这里的分布一般有四种:标准正态分布、t分布、 χ 2 \chi^2 χ2分布、和F分布
对于皮尔逊相关系数r而言,在满足一定条件下,我们可以构建统计量:
t = r n − 2 1 − r 2 t=r\sqrt{\frac{n-2}{1-r^2}} t=r1r2n2
可以证明t是服从自由度为n-2的t分布。

第三步:将我们要检验的这个值代入,得到检验值

将我们要检验的这个值代入这个统计量中,可以得到一个特定的值(检验值)、
例如:我们计算出关系系数为0.5,n=30,那么我们可以得到:
t ∗ = 0.5 30 − 2 1 − 0. 5 2 = 3.05505 t^*=0.5\sqrt{\frac{30-2}{1-0.5^2}}=3.05505 t=0.510.52302 =3.05505

第四步:画出概率密度函数

由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平通过查表找到临界值,并画出检验统计量的接受域和拒绝域。
例如:我们知道上述统计量服从自由度为28的t分布,其概率密度函数图形如下:

%% 假设检验部分
x = -4:0.1:4;
y = tpdf(x,28);  %求t分布的概率密度值 28是自由度  
figure(1)
plot(x,y,'-')
grid on  % 在画出的图上加上网格线
hold on  % 保留原来的图,以便继续在上面操作
% matlab可以求出临界值,函数如下
tinv(0.975,28)    %    2.0484
% 这个函数是累积密度函数cdf的反函数
plot([-2.048,-2.048],[0,tpdf(-2.048,28)],'r-')
plot([2.048,2.048],[0,tpdf(2.048,28)],'r-')

对皮尔逊相关系数进行假设检验_第1张图片

第五步:给出置信水平,找到临界并画出接受域和拒绝域

由于我们知道统计量的分布情况,因此我们可以画出该分布的概率密度函数pdf,并给定一个置信水平,根据这个置信水平表查到临界值,并画出检验统计量的接受域和拒绝域。
常见的置信水平有三个:90%,95%,99%,其中95%是最常用的。
因为我们这里是双侧检测,所以我们需要找出能覆盖0.95的概率的部分。查表可知,对应的临界值为2.048,因此我们可以做出接受域和拒绝域。

第六步:判断接受还是拒绝原假设,并得出结论

看我们计算出来的检验值是落在了接受语还是拒绝域,并下结论。
因为我们得到的 t ∗ = 3.05505 > 2.048 t^*=3.05505>2.048 t=3.05505>2.048因此我们得到一下结论:
在95%的置信水平上,我们拒绝原假设 H 0 : r = 0 H_0:r=0 H0:r=0,因此r是显著不为0的。

这里有更好用的办法:p值判断法
我们得到的检验值t*=3.05505,根据这个值,我们可以计算出其对应的那个概率。

%% 计算p值
x = -4:0.1:4;
y = tpdf(x,28);
figure(2)
plot(x,y,'-')
grid on 
hold on
% 画线段的方法
plot([-3.055,-3.055],[0,tpdf(-3.055,28)],'r-')
plot([3.055,3.055],[0,tpdf(3.055,28)],'r-')
disp('该检验值对应的p值为:')
disp((1-tcdf(3.055,28))*2)  %双侧检验的p值要乘以2

计算得出p=0.0049。p<0.05,说明在95%的置信水平上拒绝原假设,意味着皮尔逊相关系数显著地异于0。

%% 计算各列之间的相关系数以及p值
[R,P] = corrcoef(Test)
%EXCEL表格中给数据右上角标上显著性符号吧
P < 0.01  % 标记3颗星的位置
(P < 0.05) .* (P > 0.01)  % 标记2颗星的位置
(P < 0.1) .* (P > 0.05) % % 标记1颗星的位置
% 也可以使用Spss操作哦

皮尔逊相关系数假设实验的条件

第一,实验数据通常是对成对的来自于正态分布的整体,因为我们再求皮尔逊相关系数以后,通常还会用t检验之类的方法来进行皮尔逊相关系数检验,而t检验是基于数据呈正态分布的假设的。
第二,实验数据之间的差距不能太大,皮尔逊相关性系数收到异常值的影响比较大。
第三,每组样本之间是相互独立的,构造t统计量时需要用到。

你可能感兴趣的:(概率论,算法,matlab,数学建模,美国大学生数学建模竞赛)