R语言学习笔记5_参数的假设检验

目录

  • 五、参数的假设检验
    • 5.1 假设检验与检验的P值
      • 5.1.1 假设检验的概念与步骤
        • 假设检验的基本思想
        • 两类错误
        • 检验步骤
      • 5.1.2 检验的P值
    • 5.2 单正态总体参数的检验
      • 5.2.1 均值μ的假设检验
      • 5.2.2 方差σ^2^的检验:卡方检验
    • 5.3 两正态总体参数的检验
      • 5.3.1 均值的比较:t 检验
      • 5.3.2 方差的比较:F检验
    • 5.4 成对数据的 t 检验
    • 5.5 单样本比率的检验
      • 5.5.1 比率p的精确检验
      • 5.5.2 比率p的近似检验(n>30)
    • 5.6 两样本比率的检验

五、参数的假设检验

假设总体分布已知先对总体的某个未知参数作某种假设,然后由抽取的样本提供信息,构造合适的统计量,对所提供的假设进行检验,以做出统计判断是接受假设还是拒绝假设。

5.1 假设检验与检验的P值

5.1.1 假设检验的概念与步骤

假设检验的基本思想

  • 概率性质的反证法:小概率事件在一次试验中是几乎不可能发生的。
  • 要检验某假设H0,先假设H0正确,在此假设下构造某一事件A,其在H0为正确的条件下发生的概率很小;现在进行一次试验,如果事件A发生了(小概率事件发生了),表明有充分理由拒绝“假定H0正确”;反之,如果事件A没有发生,则没有充分理由拒绝H0,接受H0
  • 接受/拒绝H0≠H0正确/错误,只是根据样本所提供的信息以一定的可靠程度认为H0正确或错误。
  • 通常把没有把握、不能轻易肯定的命题作为备择假设H1,把没有充分理由就不能轻易否定的命题作为原假设H0(只有理由充分时才拒绝它,否则应予以保留)。

两类错误

1)第一类错误:弃真
                 P(拒绝H0 | H0为真)=α
2)第二类错误:取伪
                 P(接受H0 | H0为假)=β
两类错误 此消彼长 唯一让他们都减小的方法是增大样本容量。
通常只对第一类错误的最大概率α加以限制,而不考虑β,这种统计假设检验问题称为——显著性检验,α为假设检验的显著水平。

检验步骤

1)提出原假设H0与备择假设H1
2)选择检验统计量W并确定其分布;
3)在给定的显著性水平下,确定H0关于统计量W的拒绝域;
4)算出样本点对应的检验统计量的值;
5)判断:若统计量的值落在拒绝域内则拒绝H0,否则接受H0

5.1.2 检验的P值

检验的P值——在一个假设检验问题中,拒绝原假设H0的最小显著性水平。
P值表示对原假设的怀疑程度/首次拒绝原假设的概率,P值越小,表示原假设越可疑,越应该拒绝原假设。
α≥P,在显著性水平α下拒绝H0; α<P,在显著性水平α下保留H0

5.2 单正态总体参数的检验

5.2.1 均值μ的假设检验

1)方差σ2已知时μ的检验:Z检验

假设检验问题 拒绝域
H0:μ=μ0,H1:μ≠μ0 { |Z| > z1-α/2 }
H0:μ≤μ0,H1:μ>μ0 { Z > z1-α }
H0:μ≥μ0,H1:μ<μ0 { Z < - z1-α }

例:微波炉在炉门关闭状态下的辐射量是一项重要的质量指标。设该指标服从正态分布N(μ,0.12),均值要求不超过0.12。为检查近期产品的质量,从某厂生产的微波炉中抽查了25台,得其炉门关闭时辐射量的均值为0.13,问该厂生产的微波炉炉门关闭时辐射量是否偏高?(α=0.05)

假设H0:μ≤0.12,H1:μ>0.12

> z.test(0.13,25,0.1,0.05,u0=0.12,alternative = "greater")
$mean
[1] 0.13

$z
[1] 0.5

$p.value
[1] 0.6915

$conf.int
[1] 0.0908 0.1692

由于P=0.6915>α=0.05,接受原假设,认为炉门关闭时辐射量没有偏高。

2)方差σ2未知时μ的检验:t检验

假设检验问题 拒绝域
H0:μ=μ0,H1:μ≠μ0 { |T| > t1-α/2(n-1) }
H0:μ≤μ0,H1:μ>μ0 { T > t1-α(n-1) }
H0:μ≥μ0,H1:μ<μ0 { T < - t1-α(n-1) }

例:某车间用一台包装机包装精盐,额定标准每袋净质量500g,设包装机包装出的盐每袋盐净质量X~N(μ,σ2),某天随机的抽取9袋,称得净质量(g)为490,506,508,502,498,511,510,515,512。问该包装机工作是否正常?(α=0.05)

假设H0:μ=500,H1:μ≠500

> x<- c(490,506,508,502,498,511,510,515,512)
> t.test(x,mu=500)

	One Sample t-test

data:  x
t = 2.2, df = 8, p-value = 0.06
alternative hypothesis: true mean is not equal to 500
95 percent confidence interval:
 499.7 511.8
sample estimates:
mean of x 
    505.8 

由于p-value = 0.06>α,接受原假设,认为该包装机正常。

5.2.2 方差σ2的检验:卡方检验

假设检验问题 拒绝域
H0:σ202,H1:σ2≠σ02 { χ2 ≥ χ21-α/2(n-1) 或 χ2 ≤ χ2α/2(n-1)}
H0:σ2≤σ02,H1:σ202 { χ2 ≥ χ21-α(n-1) }
H0:σ2≥σ02,H1:σ202 { χ2 ≤ χ2α(n-1) }

例:检查一批保险丝,抽出10根测量其通过强电流融化所需的时间(s)为:42,65,75,78,59,71,57,68,54,55。假设融化所需时间服从正态分布,问能否认为融化时间方差不超过80?(α=0.05)

假设H0:σ2≤80,H1:σ2>80

> x<-c(42,65,75,78,59,71,57,68,54,55)
> chisq.var.test(x,80,0.05,alternative = "greater")
$var
[1] 121.8

$chi2
[1] 13.71

$p.value
[1] 0.8668

$conf.int
[1]  57.64 406.02

由于p=0.8668>α,故接受原假设,认为融化的时间方差不超过80.

5.3 两正态总体参数的检验

5.3.1 均值的比较:t 检验

前提:σ1222

假设检验问题 拒绝域
H0:μ12,H1:μ1≠μ2 { |T| > t1-α/2(n1+n2-2) }
H0:μ1≤μ2,H1:μ12 { T > t1-α(n1+n2-2)}
H0:μ1≥μ2,H1:μ12 { T < - t1-α(n1+n2-2)}

例:甲、乙两台机床分别加工某种轴承,轴承的直径分别服从正态分布N(μ121)、N(μ222),从各自加工的轴承中分别抽取若干个轴承测其直径,结果如下表所示。设σ2122,问两台机床的加工精度有无显著差异?(α=0.05)

总体 样本容量 直径
X(甲) 8 20.5 19.8 19.7 20.4 20.1 20 19 19.9
Y(乙) 7 20.7 19.8 19.5 20.8 20.4 19.6 20.2

假设H0:μ12,H1:μ1≠μ2

> x<-c(20.5, 19.8 ,19.7 ,20.4, 20.1, 20 ,19 ,19.9)
> y<-c(20.7, 19.8, 19.5, 20.8, 20.4, 19.6, 20.2)
> t.test(x,y,var.equal = T)

	Two Sample t-test

data:  x and y
t = -0.85, df = 13, p-value = 0.4
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7684  0.3327
sample estimates:
mean of x mean of y 
    19.93     20.14 

由于p = 0.4>α=0.05,故接受原假设,认为两台机床的加工精度没有显著差异。

5.3.2 方差的比较:F检验

假设检验问题 拒绝域
H0:σ1222,H1:σ12≠σ22 { F ≥ F1-α/2(n1-1,n2-1) 或 F ≤Fα/2(n1-1,n2-1) }
H0:σ12≤σ22,H1:σ1222 { F ≥ F1-α(n1-1,n2-1) }
H0:σ12≥σ22,H1:σ1222 {F ≤ Fα(n1-1,n2-1) }

例:数据同上例,问两台机床加工的轴承直径的方差是否相同?

假设H0:σ1222,H1:σ12≠σ22

> var.test(x,y)

	F test to compare two variances

data:  x and y
F = 0.79, num df = 7, denom df = 6, p-value = 0.8
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
 0.1393 4.0600
sample estimates:
ratio of variances 
            0.7932 

由于p = 0.8>α=0.05,故接受原假设,认为两台机床加工的轴承直径的方差相同。

5.4 成对数据的 t 检验

成对数据:两样本的样本容量相等,除均值外没有差异。

某班级同一单元内容的第二次考试成绩是否比第一次高?

Zi=Xi-Yi , i=1,2,…,n μ=μ12 σ21222 Z~N( μ,σ2)
假设检验问题 拒绝域
H0:μ=μ0,H1:μ≠μ0 { |T| > t1-α/2(n-1) }
H0:μ≤μ0,H1:μ>μ0 { T > t α/2(n-1) }
H0:μ≥μ0,H1:μ<μ0 { T < - t α/2(n-1) }

例:在针织品漂白工艺过程中,要考虑温度对针织品的断裂强度的影响。为了比较70度与80度的影响有无差别,在这两个温度下分别重复做了8次试验,数据如下表所示(单位:N)。根据经验,温度对针织品断裂强度的波动没有影响。问在70度时的平均断裂强度与80度时的平均断裂强度是否有显著差别?(α=0.05)

70度时的强度 20.5 18.8 19.8 20.9 21.5 19.5 21.0 21.2
80度时的强度 17.7 20.3 20.0 18.8 19 20.1 20.0 19.1

假设H0:μ=μ0,H1:μ≠μ0,μ=μ12
1)方法一:

> x<-c(20.5 ,18.8, 19.8, 20.9 ,21.5 ,19.5, 21.0 ,21.2)
> y<-c(17.7, 20.3, 20.0, 18.8, 19 ,20.1, 20.0 ,19.1)
> t.test(x,y,paired = TRUE)

	Paired t-test

data:  x and y
t = 1.8, df = 7, p-value = 0.1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.3214  2.3714
sample estimates:
mean of the differences 
                  1.025 

2)方法二:

onesamp(dset, x="unsprayed", y="sprayed", xlab=NULL, ylab=NULL, dubious=NULL, conv=NULL, dig=2)

dset 为有两列的数据框或矩阵,x 为处于”predictor“地位的列名,y为处于”response“地位的列名

> z<-data.frame(x,y)
> > onesamp(z,x='y',y='x')

 x 0.9411 0.8876 1.61 

	One Sample t-test

data:  d
t = 1.8, df = 7, p-value = 0.1
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -0.3214  2.3714
sample estimates:
mean of x 
    1.025 

5.5 单样本比率的检验

设样本服从binom(1,p),T=样本和~binom(n,p)

5.5.1 比率p的精确检验

假设检验问题 拒绝域
H0:p=p0,H1:p≠p0 { T ≤ c1或T ≥ c2 },c1 < c2
H0:p≤p0,H1:p>p0 { T ≥ c}
H0:p≥p0,H1:p0 { T≤ c '}

可以通过二项分布/F分布来确定临界值c,用binom.test()完成原假设的检验

5.5.2 比率p的近似检验(n>30)

样本容量较大时,比例p的抽样分布近似服从正态分布。

假设检验问题 拒绝域
H0:p=p0,H1:p≠p0 { |Z| > z1-α/2 }
H0:p≤p0,H1:p>p0 { Z > z1-α }
H0:p≥p0,H1:p0 { Z < - z1-α }

例:某产品的优质品率一直保持在40%,近期监督部门抽查了12件产品,其中优质产品为5件,问在α=0.05水平上能否认为其优质频率仍保持在40%?

假设H0:p=p0,H1:p≠p0,由于n=12<30,适合作精确检验。

> binom.test(c(5,7),p=0.4)

	Exact binomial test

data:  c(5, 7)
number of successes = 5, number of trials = 12, p-value = 1
alternative hypothesis: true probability of success is not equal to 0.4
95 percent confidence interval:
 0.1517 0.7233
sample estimates:
probability of success 
                0.4167           

同样可以用prop.test()进行近似检验,只不过会发出警告

> prop.test(5,12,p=0.4,correct = T)

	1-sample proportions test with continuity correction

data:  5 out of 12, null probability 0.4
X-squared = 0, df = 1, p-value = 1
alternative hypothesis: true p is not equal to 0.4
95 percent confidence interval:
 0.1818 0.6941
sample estimates:
     p 
0.4167 

Warning message:
In prop.test(5, 12, p = 0.4, correct = T) : Chi-squared近似算法有可能不准

5.6 两样本比率的检验

X,Y相互独立,总体容量较大 n1,n2较大 p1,p2近似服从正态分布
假设检验问题 拒绝域
H0:p1=p2,H1:p1≠p2 { |Z| > z1-α/2 }
H0:p1≤p2,H1:p1>p2 { Z > z1-α }
H0:p1≥p2,H1:p12 { Z < - z1-α }

例:某高校随机抽取了102个男学生与135个女学生调查家中有无计算机。调查结果为23个男学生和25个女学生家中有计算机。问在α=0.05水平上,能否认为男、女学生家中拥有计算机的比率一致?

假设H0:p1=p2,H1:p1≠p2

> prop.test(c(23,25),c(102,135))

	2-sample test for equality of proportions with continuity correction

data:  c(23, 25) out of c(102, 135)
X-squared = 0.36, df = 1, p-value = 0.5
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.07256  0.15317
sample estimates:
prop 1 prop 2 
0.2255 0.1852 

由于p-value = 0.5>0.05,故接受原假设,认为男、女学生家中拥有计算机的比率一致。

你可能感兴趣的:(R)