假设检验方法总结(不断更新)

最近又再看专业相关的论文,其中很多都用到了假设检验的方法,感觉自己对这方面知识的记忆还不是很深刻,所以都写下来,以帮助记忆。

1. 假设检验问题的来源

这两天主要看的论文是关于旅行时间估计的。大致想法是用上下游卡口的过车数据,筛选出即通过了上游卡口又通过了下游卡口的车辆,计算他们在两个卡口之间的行程时间,在此基础上估计相应时段两个卡口间的总体旅行时间。但在真实数据中,会遇到异常值的问题,比如一个路段里可能有多个上下匝道,有些车可能在路段中的某个匝道下道,过一段时间又在路段里的某个匝道上道,再经过下游卡口,这样卡口所记录的行程时间就不是这辆车直接从上游卡口到下游卡口的时间了,而是会长不少,实际处理过程中就需要把这些异常值去掉。但实际上处理异常值的方法只是借鉴了假设检验的思想以及应用了一些结论,并不是直接的假设检验。在这篇文章中我们还是专注于假设检验本身的方法论,以上的场景只是作为一个引子。

2.假设检验想实现的目的

进一步考虑这样一个场景,在某一天我从某条路段上抽样了若干如1中所述的旅行时间样本,然后我想知道这条路在那个时间段是否是拥堵的,我该怎么做呢?最简单的办法当然是,将这些时间和正常的旅行时间进行比较,如果他们大多都远远大于正常旅行时间,那显然是拥堵的。拿所有样本去进行比较有些繁琐,因此我们可以使用均值来代表原样本的特征,再去和正常旅行时间比较,在大多数样本都远远大于正常旅行时间的情况下,这样的比较也很容易得到肯定的结论。

这样的比较看起来很合理,但其实我回避了一个重要的问题,那就是如何去衡量“远远大于”。10分钟对3分钟是不是远远大于?还是20分钟对10分钟是远远大于?光凭感觉很难说清楚。这个时候就需要假设检验出场了。其核心思想就是说,现在我假设正常的旅行时间应该服从某一分布,然后我看在这样的分布的条件下,我抽出以上那些样本的概率有多大。如果这个概率很大,那我基本上可以认为总体是符合正常旅行时间分布的;如果这个概率很小,也就是出现了所谓的小概率事件,那我就认为总体应该不是正常的旅行时间分布。而如果样本不仅是小概率事件,而且还是大于正常旅行时间的小概率事件,那我就有理由认为这条路在抽样的那个时间段内,是拥堵了。

根据假设的分布不同,就出现了不同的检验方法,以下对集中常用的假设检验方法进行了总结(时间关系,没有一次性总结所有的方法,而是不断补充)

1)z检验

z检验应该是最基础的假设检验方法,因为它是假设理想分布是正态分布。中心极限定理告诉我们,当样本数量足够大的时候,任何抽样的均值都会服从正态分布(可能还有一些其他条件?)。因此假设理想分布是正态分布就是最符合直觉的一个办法。那么这个理想正态分布的参数是什么呢?首先它的均值我们应该是知道的,在我们的例子中就应该是正常旅行时间(如果你连这个都不知道,有什么比较的意义呢?),其次还有方差,这个其实是不太容易知道的,就比如你随便在五道口拉一个人都能够大概说出从13号线从西直门到五道口的平均时间,但如果让你说方差,恐怕没多少人能有把握地说出来。因此对于如何确定这个方差,实际是需要讨论的,其实也由此衍生出了不同的检验方法。在z检验中,我们认为这个方差是已知的。因此现在均值和方差都知道了,也就能构造出理想的正态分布了。

构造出理想的正态分布之后,我们想知道的是在理想分布下,抽到我们现在手里的样本的概率是多大?如果概率大,我们就认为这些样本应该是来自于理想分布,如果概率小,显然就很有理由相信他们不是来自于理想分布。如何判断这个概率是大还是小呢?人们是这样设定的:如果样本均值只有在过大或过小的情况下才不正常,那么就认为样本均值大到或小到出现概率小于alpha时可以拒绝理想分布。如果样本均值在过大和过小的情况下均不正常,那么就认为样本均值大到出现概率小于alpha/2和小到出现概率小于alpha/2时,可以拒绝理想分布。这里的alpha常常被成为显著性水平,可以理解为“究竟样本和理想分布的差异有多显著,才会让我们认为理想分布是不正确的?”在实际研究中,alpha的取值可以是0.1,0.05等等。而这里面的概率(也就是和alpha进行比较的那个概率),我们称其为p-value。

对“样本均值大到或小到出现概率小于alpha时”再进行一些解释。如果我们观察的变量是离散的,那么直接可以得到样本出现的概率,也就可以直接和alpha继续比较。如果观察的变量是连续的,那实际上抽到任何一个样本的概率都是0,也就没有和alpha进行比较的意义了。因此,再变量连续的情况下,我们一般是把大于或小于样本均值的概率作为p-value,如果大于或小于这个样本均值的概率很小,那自然这个样本均值本身也很异常了,所以也有很大利用拒绝理想分布。

上面是从p-value的角度对z检验的思想进行的阐述。换一个角度,其实每一个概率都对应了一个随机变量的取值,既然我们设定了显著性水平alpha,可不可以也同时设定一个与alpha对应的随机变量值呢?当样本均值大于或小于这个值时,就认为理想分布是不正确的。答案是可以的。但对于不同的正态分布,与alpha对应的随机变量值是不同的,如果每假设一个理想分布都要去算一遍这个值,意味着每次都要求解一个带积分的方程,比较麻烦。因此考虑构造一个标准正态分布,把理想分布下的样本均值转化为标准正态分布的某个值(只需仿射变换即可),再与alpha在标准正态分布下的值(预先算好即可)进行比较,这样就会比每次都去求解积分方程简单许多。而由样本均值转化为来的值,即是z值,预先算好的值,就是标准正态分布表。这是从p-value以外的另一个角度来理解z检验,其实应该也是z检验最初的解释(因为出现了z这个名称),不过我个人还是觉得从p-value的角度更好理解一些。

你可能感兴趣的:(假设检验方法总结(不断更新))