第八章:假设检验

简述

假设检验和参数估计有着莫大的关系,所以这里先简单回顾一下参数估计的内容并谈一谈它和假设检验之间的关系:

1. 参数估计分为点估计和区间估计两种。

2. 点估计对于待估的参数给出一个最有可能的数值,当然我们可以根据无偏性准则、相合性准则等四条准则在来说明为什么这个值是最有可能的。但参数真正的值真的就是这个最有可能的值的概率是多大呢?不知道。实际上我们可以认为参数是这个值的概率是0,因为参数的可能值是连续的,它的可能值有无数多种,所以每个值出现的概率都是0,那怎么办呢?用区间估计。区间估计就像是概率密度曲线下方的面积一样,某个值出现的概率是0,但是这个值会位于哪个区间的概率确是可以计算的。区间估计就是要告诉我们,参数估计中某个参数的值会位于某个区间内的概率是多少。自然,这个区间范围给的越大,参数位于区间内的概率也就越大。

3. 假设检验和区间估计几乎可以说就是一回儿事儿,因为无论从计算的思想还是方式两者都可以说是一模一样的。在显著水平下,区间估计的值实际上也就是假设检验中的接受域;区间估计的概率也就是。

假设检验和区间估计非常相似但又不完全一样,知乎上有个帖子讨论区间估计和假设检验之间的区别,这里不做验证的转述其中一句话:“区间估计是在没有任何先验的情况下去估计参数的区间;而假设检验是在有先验的情况下去验证先验的正确性。两者手段相同目的不同。在极端情况下,在数据量极少或样本的方差巨大的时候,或许假设推断会声称自己的原假设正确(即),但是区间估计会给出一个很大的范围。”。最后这个例子是否恰当我不敢说,但是有粗体部分的话,我们已经可以判断在何时应该用区间估计,何时应该用假设检验了。


方法

做假设检验的思路有两个:

1. 对统计量做区间估计,求在概率下参数的置信区间A。若参数落在了A内,则说明在显著水平下,接受原假设;若参数落在了区间A外,则拒绝原假设。

2. 用统计量求出参数的无偏点估计,并求得真正的参数比点估计的值更极端的概率是多少(称作P_值),若这个概率,则接受原假设;否则拒绝原假设。

以上两种方式虽然出发点不同,但是求得的结果却是一模一样,原因就是两个都是基于统计量的分布的,例如样本均值服从正态分布、样本方差服从分布等等。做两道题就会发现,即使是在实际使用过程中,两个形态也完全一样,无非一个是ab=c的形式,一个是b = c/a的形式罢了。

基于区间估计

在做检验时,可能出现的情况有以下四种:


第I类错误:拒绝真实的原假设(弃真)。第II类错误:接受错误的原假设(取伪)

纽曼皮尔逊原则:首先控制犯第一类错误的的概率小于某个阈值,然后在寻找检验使得犯第二类错误的概率尽可能的小。

例:设清漆干燥的时间为X,已知,其中已知,做的假设检验,其中的观测值为6.4,样本数量为9。

 (双边检验)

解:当成立时有,,在显著水平=0.05下,,然后查表依此得到满足条件的最大的<=6.392。而观测值6.4>6.392,因此我们有95%的把握拒绝原假设。


基于点估计

例:设清漆干燥的时间为X,已知,其中已知,做的假设检验,其中的观测值为6.4。

 (双边检验)

解:

P_和的关系:

若P_ < ,则拒绝原假设。否则接受原假设。


常用检验

1. 正态分布中,总体方差已知,检验,用Z检验:

2.  正态分布中,总体方差位置知,检验,用t检验:

3. 正态分布中,总体均值未知,检验,用卡方检验:

等等,可见,和做参数的区间估计用到的分布是一模一样的。


拟合优度检验

上面的假设检验基本说的都是分布已知的情况下对参数的值进行检验,其实假设检验还有一个就是检验分布。用到的主要是皮尔逊卡方检验。这部分内容很少,也比较简单,就不总结了,直接祭上PPT







你可能感兴趣的:(第八章:假设检验)