推断统计-假设检验

推断统计是研究如何利用样本数据来推断总体特征的统计方法。包含参数估计和假设检验。参数估计即利用样本信息推断总体特征,也就是根据样本数据来估计变量的概率分布,或者是总体分布所包含的未知参数的过程。

举个例子:要研究人们的市场消费行为,首先需要了解人们的收入状况,若某城市人均年收入数据服从正态分布,但参数的均值和方差的具体取值未知,此时就可以根据样本的来估计这两个参数。方法有点估计和区间估计。通俗理解,点估计就是得到具体取值,区间估计就有一个包括真实值的区间范围,称为置信区间。

假设检验:参数估计的主要任务是猜测参数的取值,而假设检验的着重点在于检验参数的取值是否等于某个目标值。比如先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出判断。

假设检验有两个隐含的思想:小概率事件思想和反证法的思想。

小概率事件就是在我们的假设下如果出现了小概率事件,那么就可以否定我们的假设。

反证法就是先假设我们提出的假设是正确的,然后在这个条件下去观测发生的事件是否是小概率事件,如果是的话,则否定原假设。

假设检验的步骤:

1.提出原假设,记为H0,同时提出互为反命题的备择假设H1。

2.在H0正确的条件下,求出样本数据出现的概率,看是否是小概率事件

3.若小概率,认定原假设错误,称为拒绝原假设。否则不能拒绝原假设

对于原假设和备择假设有如下选择原则:

原假设应该是受保护的,不应轻易被拒绝;

备择假设是检验者所希望的结果;

等号永远出现在原假设中。

假设检验中出现的两类错误。

1.第一类错误:在假设检验中拒绝了本来是正确的原假设(弃真)。我们认为小概率事件是几乎不可能发生的,因此我们会拒绝原假设当出现小概率事件的时候,然而只要概率不等于0,那么事件都是有可能发生的,也就是说我们仍然有可能遇到小概率事件,但我们却拒绝他了。第一类错误的概率记为α

2.第二类错误:在假设检验中没有拒绝本来是错误的原假设(取伪)。原假设是错误的但却很接近真实值,可能是有一些偶然因素使然。第二类错误的概率β

这两类错误我们没办法同向优化,所以我们一般选择控制α,不限制β。

α是第一类错误的概率,也就是在H0为真的条件下,拒绝H0的概率,是一个条件概率

P(拒绝H0|H0为真),为了控制α,我们将它固定P(拒绝H0|H0为真)<=α

在统计学上,α叫做显著性水平,常见的值有0.1,0.05,0.025

接着为了确定一个事件是不是小概率事件,要求解此事件发生的概率。对于连续型变量, 某个具体取值的概率都为0,所以无法直接算概率,则使用另一种方法,即算出在原假设正确的条件下,和当前样本一样极端或更极端的情况出现的概率。举个例子,原假设总体均值为10,样本均值9,则差为-1,那么更极端就是指均值和10的差大于1或者小于-1的样本。因此,把所得到的样本或更极端的情况出现的概率叫做p值(p-value)。比如上面的例子,p-value就是均值小于等于9或者大于等于11的样本的概率。

你可能感兴趣的:(推断统计-假设检验)