相关性及相关性的显著性检验

文章目录

        • 1. 相关性:
          • 1.1例子1
          • 1.2 例子2
        • 2.相关性的显著性检验:
          • 2.1 例1.1的显著性检验
          • 2.2 例1.2的显著性检验

看了一些统计学的书,关于相关性,假设检验等的问题,想写一点自己的理解

1. 相关性:

相关性是指两个变量的关联程度。两个变量的的相关性可分为正相关,负相关,不相关

  1. 简而言之,相关性是指两个变量的变化趋势的异同,相同则为正相关,反之则为负相关。(用正负号 表示)
  2. 相关程度的大小,用数字表示,(绝对值的取值范围为[0,1])
  3. 相关性不是指两个变量具有的某种关系
1.1例子1

r语言中自带的数据为例:

# 以为车辆的两种信息为例,验证其相关性
# 每加仑汽油行驶英里数(mpg) 和 汽缸数(cyl)
> mtcars$mpg
 [1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3
[14] 15.2 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3
[27] 26.0 30.4 15.8 19.7 15.0 21.4
> mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
> cor(mtcars$mpg, mtcars$cyl)
[1] -0.852162             # 结果为负相关,数字表示相关的程度大小
1.2 例子2
# (disp) 排量(立方英寸):发动机气缸的总容积
> mtcars$disp
 [1] 160.0 160.0 108.0 258.0 360.0 225.0 360.0 146.7 140.8 167.6 167.6
[12] 275.8 275.8 275.8 472.0 460.0 440.0  78.7  75.7  71.1 120.1 318.0
[23] 304.0 350.0 400.0  79.0 120.3  95.1 351.0 145.0 301.0 121.0
>  mtcars$cyl
 [1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4
> cor(mtcars$disp, mtcars$cyl)
[1] 0.9020329                     # 结果为正相关,且正相关的程度很大
# 很明显气缸数量跟排量成正相关

2.相关性的显著性检验:

所谓统计假设检验就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设是否合理。
也就是说,假如在一次样本实验中,两组数据的相关性为0.7,那么100次实验中,或者1000次实验中,出现相关性为0.7或者小于、大于0.7的概率是多少。从而验证我们求出的相关性的值有多大可能是符合总体数据的相关性的。

相关性的显著性检验:简单来说,就是检验这一次样本数据求得的相关性的值是否可靠。

2.1 例1.1的显著性检验

使用cor.test()进行显著性检验,默认方法为pearson,想要了解更多,可以参考r中的方法参数

> cor.test(mtcars$mpg, mtcars$cyl)

	Pearson's product-moment correlation

data:  mtcars$mpg and mtcars$cyl
t = -8.9197, df = 30, p-value = 6.113e-10
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:-0.9257694 -0.7163171
sample estimates:
      cor 
-0.852162 

结果:

  • 首先我们探讨的问题是:两组变量是否相关,所以假设检验的零假设为:两组变量不相关(约定俗成),备择假设为:两组变量相关。
  • 一般p值给出两个显著水平:0.05:显著水平;0.01:极显著水平;p-value = 6.113e-10<0.01,达到极显著水平,也就是说应该否定零假设,得出两组变量相关的的结果。
  • p值的解析:。假设总体的相关度为0,则预计在几十亿次中只会有少于一次的机会见到-0.852162 这样的样本相关度(即p=6.113e-10) 。也就是说在零假设的情况下,几十亿分之一的概率基本不会发生,所以就可以拒绝零(原)假设,接受备择假设 。
2.2 例1.2的显著性检验
> cor.test(mtcars$disp, mtcars$cyl)

	Pearson's product-moment correlation

data:  mtcars$disp and mtcars$cyl
t = 11.445, df = 30, p-value = 1.803e-12
alternative hypothesis: true correlation is not equal to 095 percent confidence interval:0.8072442 0.9514607
sample estimates:
      cor 
0.9020329 

结果:

  • 同样的分析,如2.1
  • 只是这次的p值更小,那么否定零假设的可信度也就越大。

你可能感兴趣的:(数据分析,生信,r语言)