我们能在网上非常容易找到如下公式:
对于 X X X 和 Y Y Y 变量,有 n n n 个样本 ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) (x_1,y_1),(x_2,y_2),...,(x_n,y_n) (x1,y1),(x2,y2),...,(xn,yn),
则 Pearson 相关系数
r = ∑ i = 1 n ( x i − x ˉ ) ( x y − y ˉ ) [ ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 ] 1 2 (1) r= \frac {\sum_{i=1}^n{(x_i-\bar{x})(x_y-\bar{y})}} {[\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2]^\frac{1}{2}} \tag{1} r=[∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2]21∑i=1n(xi−xˉ)(xy−yˉ)(1)
其中 x ˉ , y ˉ \bar{x},\bar{y} xˉ,yˉ 代表样本的平均值,
欲求该 r r r 值的显著性,则构建 t t t 统计量
t = r 1 − r 2 / n − 2 (2) t=\frac{r}{\sqrt{1-r^2}/\sqrt{n-2}} \tag{2} t=1−r2/n−2r(2)
那么,通过查阅 t t t 分布表,就可以很容易知道 p p p 值的大小,从而判定当前回归系数是否有意义(有意义: p < 0.05 p<0.05 p<0.05)。
但是,为什么可以这样算?我们来思考一下。
回忆 t 统计量的公式:
t = x ˉ − μ s / n (3) t=\frac{\bar{x}-\mu}{s/\sqrt{n}} \tag{3} t=s/nxˉ−μ(3)
其中 x ˉ \bar{x} xˉ 是样本均值, μ \mu μ 是总体均值, s s s 是样本标准差, n n n 是自由样本数量
多说一句, t t t 检验的精髓在这里就体现了:
在只知道总体均值 μ \mu μ、而不知道总体方差时,如何知道某些样本是否来自这个总体?
首先,我们得假定一个合理的偏离范围
如果样本均值 x ˉ \bar{x} xˉ 和总体均值 μ \mu μ 的偏差(分子)落在这个偏离范围内,则认为它来自这个总体
这个偏离范围,一般用总体自身的振荡 σ 2 \sigma^2 σ2 代表,但是总体方差未知,于是我们便用样本方差 s 2 s^2 s2 替代
这样,通过分子和分母的比值,就可以知道当前样本有多大程度偏离总体了
或者说,样本的偏移量到底是总体自身振荡导致的,还是 “样本不属于这个总体” 导致的
我们对比一下(2)和(3)式,可以发现这里实际上是取了:
μ = 0 \mu=0 μ=0, s = 1 − r 2 s=\sqrt{1-r^2} s=1−r2,回归问题的自由度是 n − 2 n-2 n−2 而不是 n n n
那么,这意味着什么?
这意味着 我们在判断当前的 r r r 有多大程度偏离一个均值为 0、方差为 1 − r 2 1-r^2 1−r2 的总体
首先,为什么要和均值为 0 的总体作比较?
请注意,任何一个显著性检验都离不开零假设,同样,相关性评价问题的零假设如下:
H 0 H_0 H0:变量 X X X 和 变量 Y Y Y 没有相关性
显然,在这种假设下,即便拥有再多的样本,计算出来的 r r r 应该在 0 附近摆动
其次, X X X 和 Y Y Y 无关时,相关系数 r r r 会在 [ − 1 , 1 ] [-1,1] [−1,1] 振荡,
而且,相关系数越大,意味着总体越不发散(振荡越小),因此取该总体的标准差 s = 1 − r 2 s=\sqrt{1-r^2} s=1−r2
这样,从通俗易懂的角度,我们就理解(2)式的目的了:
假设 X X X 和 Y Y Y 无关,则 r r r 值应该在 [ − 1 , 1 ] \pmb{[-1, 1]} [−1,1][−1,1][−1,1] 附近振荡,但大多数情况下接近 0,即均值为 0
构建的统计量就是在判断,当前的 r r r 有多大程度远离这个总体,也即有多大可能 X X X 和 Y Y Y 并非无关
当然,以上都是从感性的角度去理解(2)式的合理性,即从 t t t 分布的意义上去理解(2)式的构造
更严格地讲,问题核心是要证明(2)构建的统计量恰好地服从 t t t 分布,这是我们可以查表得到 p p p 值的关键
我们假设 X X X 和 Y Y Y 分别服从正态分布,则 ( X , Y ) (X,Y) (X,Y) 服从二维正态分布 N ( μ 1 , σ 1 , μ 2 , σ 2 ; ρ ) N (\mu_1,\sigma_1,\mu_2,\sigma_2;\rho) N(μ1,σ1,μ2,σ2;ρ)
则 H 0 H_0 H0 实际上等价于 ρ = 0 \rho=0 ρ=0 ,如下图所示
(引用自:https://blog.csdn.net/azxswq2541/article/details/120581174)
因此问题就巧妙地变成了:
当 ( X , Y ) ∼ N ( μ 1 , σ 1 , μ 2 , σ 2 ; ρ = 0 ) \pmb{(X,Y) \sim N (\mu_1,\sigma_1,\mu_2,\sigma_2;\rho=0)} (X,Y)∼N(μ1,σ1,μ2,σ2;ρ=0)(X,Y)∼N(μ1,σ1,μ2,σ2;ρ=0)(X,Y)∼N(μ1,σ1,μ2,σ2;ρ=0) 时,证明(2)式服从自由度为 n − 2 n-2 n−2 的 t t t 分布
这个问题是 Fisher 于 1914 年解决的,他在论文中不仅证明了上式,更给出了任意 n n n 值、任意 ρ \rho ρ 值下相关系数 r r r 的分布
有了 r r r 的理论分布,很容易把(2)式和 ρ = 0 \rho=0 ρ=0 带入,发现统计量符合 t t t 分布
详细过程:
David, Florence Nightingale. Tables of the ordinates and probability integral of the distribution of the correlation coefficient in small samples. Cambridge University Press, 1938.
简易证明:
于忠义. 关于相关检验统计量分布证明的改进[J]. 统计与决策, 2008(2):2.
其他参考:
Cohen, Patricia, Stephen G. West, and Leona S. Aiken. Applied multiple regression/correlation analysis for the behavioral sciences. Psychology press, 2014.
[完]