静下心来,文章可能比较抽象,边听雨声边看有助于集中注意力哦~
白噪声播放
我们知道,参数估计是利用样本,直接对总体的参数进行计算的一种统计方法。假设检验是对总体作出一个假设,再根据样本判断该假设是否正确。
好比“求方程的解”和验证“方程的解是某某某”两个问题,是否一样?对于确定性问题,从纯粹逻辑的角度来说,似乎是的。举例来说:
人们普遍认为生命可以由非生命的物质产生,证据是腐败的肉上有白蛆出现。为了检验这一理论,一个叫 Pasteur 的科学家,多次在同一所放置了完全类似的一些正在腐败的肉块,把一些肉块遮掩起来使之遇不到苍蝇,而不遮掩另一些肉块,使之可以遇到苍蝇。结果是蛆在苍蝇能够接触到的肉块上出现了,而在苍蝇不能接触到的肉上并没有出现。按照这一实验结果,生命能自动产生的假设被推翻了,在 Pasteur 的试验结果中,没有任何随机性的因素,所以为了确认这个结论并不需要任何统计学的理论。
但考虑另一种带有随机性的情况:
某厂家向一百货商店长期供应某种货物,双方根据厂家的传统生产水平,定出质量标准,即若次品率超过3%,则百货商店拒收该批货物。
今有一批货物,随机抽43件检验,发现有次品2件,问应如何处理这批货物?如果双方商定用点估计方法作为验收方法,显然2/43>3%,
这批货物是要被拒收的。但是厂家有理由反对用这种方法验收。他们认为,由于抽样是随机的,在这次抽样中次品的频率超过3%,不等于说这批产品的次品率p(概率)超过了3%。好比掷一枚钱币,正反两面出现的概率各为,但若掷两次钱币,不见得正、反各占一半。
所以,对于随机事件来说,估计,特别是点估计,并非检验的等价问题。然而,可以证明的是,区间估计和假设检验是等价的。
另外,一些问题也无法用估计来解决。例如以下例子:
为了验证感冒药的疗效,根据如下内容,做出推断。
痊愈着 | 未痊愈者 | 合计 |
---|---|---|
未服药 | 48 | 52 |
服药者 | 56 | 44 |
合计 | 104 | 96 |
对于这个问题来说,由于有效和无效是一个模糊概念,因此,不能用参数估计的方式求出确切的值。
所以,综上所述,为何需要统计推断有如下两个原因:
返回目录
假设检验是根据问题,对研究的总体做出假设,并根据样本来验证假设是否合理。假设检验是一种统计推断的方法,其原理是由于样本信息包含总体信息。
Fisher 的一名同事宣称自己能够辨别一杯茶中,添加茶叶先还是添加牛奶先。于是,Fisher 为了验证这一点,做了一个统计推断实验。首先,他假设这位同事并不如自己所示的,能够分别出茶、奶的添加顺序,并分别按照茶先、奶香对半的方式,泡了8杯茶,并让她品尝后指出奶、茶顺序。记录女同事成功识别出顺序的杯数为 S S S。
注意,这里提出了一个假设:同事识别茶、奶的添加顺序是乱猜的。 为了验证该假设是否正确,我们作了 8 次可以视为 iid1 的试验,也即收集到了 8 个样本。并基于这些样本,来判断同事是否具有异能,结果该同事猜中了 7 杯。由于假设中,同事猜中的杯数服从二项分布,因此根据试验结果,若同事乱猜,则猜中 7 杯的概率仅有 3.1%,主观来看很少可能发生,故从反面证明了改同事具备辨别茶、奶顺序的能力。
返回目录
在 Fisher 体系中,待“验证”的假设一般是与实际问题相反的结论,即类似于数学上的“反证法”。在本例中,同事称自己有辨别茶、奶顺序的能力,于是提出的假设则反其道而行之。因此,假设在 Fisher 体系的定义中,假设称为“null hypothesis”,即零/空假设。
零假设中通常蕴含着某些量的分布,就本例来说,即同事正确识别的杯数服从二项分布。从而根据试验结果,或抽样结果,按其分布可结算处结果发生的概率。这个概率也被称为p-值。根据 p-值,结合一些主观地推断,从而得出结论。就本例说 p-值 为 0.03,人们也可以不否定零假设(主观性)。
除此之外,Fisher 体系一般通过否定零假设,从而做出结论。这是因为,若 p-值 特别小,意味着在零假设中,试验结果的发生是小概率事件,也即事件的发生,其代表性是显著的。因此,这类通过“反证法”的试验,通常也称为显著检验。
返回目录
在 Fisher 体系中,显著检验严格意义上没有接受的说法,而用结果是否显著来描述。若试验结果的 p-值 并没有给决策者,试验结果显著的印象,则他只是暂时性地作罢,同时总结本次试验,反思一下次试验的设计,并等待着下一次试验能否得出显著性的结果。
另外,若得出的结果是显著性的(是否显著取决于决策者对 p-值 的看法),实际上也没能得出具体的结论。就本例而言,只能得出:“同事可能具备辨别能力”。而这个能力,对应着什么样的分布,是无法说清楚的。
返回目录
Neyman 体系与 Fisher 体系在同一年代提出。
设总体 X ∼ N ( μ , σ 0 2 ) X\sim N(\mu,\sigma_0^2) X∼N(μ,σ02),其中 σ 0 \sigma_0 σ0已知,样本容量为 n n n。需要判断总体的均值 μ \mu μ 是 μ 0 \mu_0 μ0还是 μ 1 \mu_1 μ1 ,其中 μ 1 > μ 0 \mu_1>\mu_0 μ1>μ0。
这个问题看似有些抽象,就像 1+1 一样,我们可以把它视为“一只牛加一只牛”。这个问题也是如此,如下:
某食品加工厂用自动包装机将食品装袋,规定的重量为 100g。现有人传出公司出现内鬼,将包装机器的某些参数进行微调,使得每袋视频的重量为 105g。由于装袋机内部误差,每袋零食的重量 X 是随机变量,且服从标准差 σ 0 = 2.5 \sigma_0=2.5 σ0=2.5的正态分布。
为了判断出现内鬼的消息是否属实,现从产品中随机地多个样本…
返回目录
对于这个问题,Neyman-Pearson 体系对此分别作出两个假设:
H 0 : μ = μ 0 = 100 H 1 : μ = μ 1 = 105 H_0:\mu=\mu_0=100 \\ H_1:\mu=\mu_1=105 H0:μ=μ0=100H1:μ=μ1=105
考虑到公司监管制度严格、且装袋机参数调整需要大量的技术要求,因此我们更倾向于 H 0 H_0 H0 是成立的,因此称之为原假设(initial hypothesis) 。
原假设是一般是由于某理论在先前是被人普遍接受的,但后来有人提出质疑,才将其暂时按在“假设”的地位。在淑女品茶一例中,一般人是没有能力分辨奶、茶的添加顺序的,而该同事表示自己可以(即提出质疑),因此将“她是靠乱猜的”这个原本普遍接受的理论按在“假设”这个位置上。这也是原假设名称的由来,即“原本是普遍接受的,但受到了质疑因此要对其重新检验。”
相反的,原假设的对立面是备选假设。
由于假设需要验证的是总体的均值,因此自然而然地可以想到用样本的均值,来制定一个判断的标准。很自然地,可以想到若样本均值 X ˉ \bar{X} Xˉ 大于某个临界值 C C C( C C C 可能接近与100),则可以认为原假设被拒绝。这里用来判断的这些通过样本处理而来的数,也叫检验统计量。
于是,根据检验统计量、临界值 就可以够成一个检验 ϕ \phi ϕ:
ϕ : X ˉ ≥ C \phi : \bar{X} \geq C ϕ:Xˉ≥C
若抽样结果使得 ϕ \phi ϕ 成立,则拒绝 H 0 H_0 H0。问题就在于,如何确定临界值呢?
在假设成立的条件下 ,由于 X ˉ \bar{X} Xˉ 满足 μ = 100 \mu=100 μ=100 的正态分布,故在指定的 C C C 下,检验标准 ϕ \phi ϕ 实际上可以视为一个随机事件。由于在理论上,我们偏向于原假设是成立的,因此为了让假设不会被轻易地否定,所以在制定标准时,即在寻找临界值 C C C 时,最好使得 ϕ \phi ϕ 成为一个 小概率事件 。
也即 P { ϕ ∣ H 0 } = α P\{\phi|H_0\}=\alpha P{ ϕ∣H0}=α 中在 α \alpha α 取值很小的情况下,根据事件的分布倒推出 C C C。传统上为了制表方便,通常 α \alpha α 取值为 0.01/0.05/0.001。在主观地选取完 α \alpha α 后,则可以通过 X ˉ \bar{X} Xˉ 满足 μ = 100 \mu=100 μ=100 的正态分布这一结论,算出临界值 C 0 C_0 C0。
得到检验标准之后,若样本结果满足标准,则拒绝原假设,否则不拒绝。于是,从逻辑上看,检验地一刀切,意味着逻辑上认为小概率事件不会发生!
从上述制定临界值的步骤来看,Neyman-Pearson 体系的显著检验,背后的原理是:“小概率事件在一次试验中不会发生” 。“不会发生” 是因为体系中,检验标准成立与否,直接决定了假设是否被接受。“小概率事件” 是因为标准通过“小概率事件”而确定,而样本结果的产生,是一个随机事件。即便 H 0 H_0 H0 成立,也有小概率不满足标准。
返回目录
得到检验标准 ϕ \phi ϕ 后,即可根据临界值,将检验统计量的取值划分接受域和拒绝域。分别对应样本结果,使得原假设被接受、和拒绝的取值。
第一类,如前所述, H 0 H_0 H0 成立却因为样本的随机性,使其没通过标准,从而造成“弃真”的错误。这类错误的发生的概率显然是:
P { ϕ ∣ H 0 } = α P\{\phi|H_0\}=\alpha P{ ϕ∣H0}=α
第二类,则是若备着假设为真,却接受原假设的概率,即“纳伪”。为什么会出现这种错误呢?抛开原假设,则标准 ϕ ˉ : X ˉ < C 0 \bar{\phi}:\bar{X}
记 H 1 H_1 H1 为真,但却接受 H 0 H_0 H0 的概率3为:
P { ϕ ˉ ∣ H 1 } = β P\{\bar{\phi}|H_1\}=\beta P{ ϕˉ∣H1}=β
Neyman-Pearson 体系采用一种保一望二的做法,即固定 α \alpha α 再通过筛选合适的检验标准、合理的试验设计来解决。
在固定 α \alpha α 和标准 ϕ : X ˉ ≥ C \phi:\bar{X}\geq C ϕ:Xˉ≥C 的前提下,临界值的求解方法如下:
由于检验统计量 X ˉ \bar{X} Xˉ 可通过计算化为4:
U = X ˉ − μ 0 σ / n U=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} U=σ/nXˉ−μ0
其中 σ , n \sigma, n σ,n 分别为总体分布的标准差和样本容量。从而 U U U 服从标准正态分布,进而得到 P { X ˉ − μ 0 σ / n ≥ u 1 − α ∣ H 0 } = α P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_0\}=\alpha P{ σ/nXˉ−μ0≥u1−α∣H0}=α。
于是检验标准等价于:
H 1 H_1 H1 为真,但却接受 H 0 H_0 H0 的概率为;
β = P { ϕ ˉ ∣ H 1 } = P { X ˉ − μ 0 σ / n ≥ u 1 − α ∣ H 1 } \begin{aligned} \beta &=P\{\bar{\phi}|H_1\}\\ &=P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_1\} \end{aligned} β=P{ ϕˉ∣H1}=P{ σ/nXˉ−μ0≥u1−α∣H1}
当 H 1 H_1 H1 为真实,有:
U = X ˉ − μ 0 σ / n ∼ N ( μ 1 − μ 0 σ / n ) U= \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}) U=σ/nXˉ−μ0∼N(σ/nμ1−μ0)
记 Δ = μ 1 − μ 0 σ / n \Delta =\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}} Δ=σ/nμ1−μ0:
β = ∫ − ∞ u 1 − α 1 2 π e x p ( ( u − Δ ) 2 2 ) d u \beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(\frac{(u-\Delta)^2}{2}) du β=∫−∞u1−α2π1exp(2(u−Δ)2)du
令 t = u − Δ t=u-\Delta t=u−Δ ,化简为:
β = ∫ − ∞ u 1 − α 1 2 π e x p ( t 2 ) d t = Φ ( u 1 − α − Δ ) \beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(t^2) dt=\Phi(u_{1-\alpha}-\Delta) β=∫−∞u1−α2π1exp(t2)dt=Φ(u1−α−Δ)
其中 Φ \Phi Φ 为标准正态分布。可见当 n → ∞ n\to \infin n→∞时, Δ → ∞ \Delta \to \infin Δ→∞,故 β → 0 \beta \to 0 β→0 。换句话说,控制 n n n,即可控制 β \beta β。
但这里要注意的是,这里所指的 β \beta β,是指不接纳 H 1 H_1 H1 的概率。因此,严格来说, β \beta β 并不是犯第二类错误的概率,因为 β \beta β 没有包含除 H 1 H_1 H1 以外的所有不是 H 0 H_0 H0 的结论。
返回目录
假设检验是一种保护原假设的检验方法,严格意义上来说,如果得出的结论是拒绝原假设,则可以说有 95% 的把握认为原假设是错误的。但反过来,若样本结果不能拒绝原假设,则不一定代表原假设是正确的。
这就好像:
证明了某个爪印不是熊爪印,但也不一定能说明巨人足迹的存在一般。
这是因为,在 Neyman-Pearson 体系中,原假设被拒绝的概率 α \alpha α 越小,则意味着接受域越大,犯第二类错误(即“纳伪”)的概率越大。极端来看,若 α = 0 \alpha = 0 α=0,则:
P { ϕ ∣ H 0 } = 0 P\{\phi|H_0\}=0\\ P{ ϕ∣H0}=0
对于两个互补的假设来说,一般有 P { ϕ ∣ H 0 } = 0 → P { ϕ } = 0 P\{\phi|H_0\}=0 \to P\{\phi\}=0 P{ ϕ∣H0}=0→P{ ϕ}=0。也即不管原假设是否成立,样本结果如何,检验标准都不会通过。换句话说: α \alpha α 越小,原假设越不容易被拒绝。
从原理来看,通常要否定原假设需要有显著性的事件发生,即对于原假设成立的情况下,试验结果是一个小概率事件,否则就认为原假设成立。因此,在检验中,接受 H 0 H_0 H0,并不等于从逻辑上证明了 H 0 H_0 H0 的成立,只是小概率事件没有发生而已5。
简单的说,就是拒绝是有力的,接受是乏力的。
原假设和备选假设不一定对称,为了理解这一点,可见下例:
设总体 X ∼ N ( μ , 1 ) X\sim N(\mu,1) X∼N(μ,1), 样本均值为 X ˉ = 0.5 \bar{X}=0.5 Xˉ=0.5,样本容量 n = 1 n=1 n=1,取 α = 0.05 \alpha=0.05 α=0.05 ,欲检验 μ = 0 , \mu=0, μ=0, 还是 μ = 1 \mu=1 μ=1。
分别提出两种假设:
对于(1),可得否定域为 V = { u > u 0.95 = 1.645 } V=\{u>u_{0.95}=1.645\} V={ u>u0.95=1.645},其中检验统计量 u = X ˉ − μ σ / n u=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} u=σ/nXˉ−μ,当 H 0 H_0 H0 成立时,可得:
u = 0.5 − 0 1 / 1 = 0.5 < 1.645 u=\frac{0.5-0}{1/\sqrt{1}}=0.5<1.645 u=1/10.5−0=0.5<1.645
接受 H 0 : μ = 0 H_0:\mu=0 H0:μ=0。
对于(2),可得否定域为 V = { u < u 0.05 = − 1.645 } V=\{u
u = 0.5 − 1 1 / 1 = − 0.5 > − 1.645 u=\frac{0.5-1}{1/\sqrt{1}}=-0.5>-1.645 u=1/10.5−1=−0.5>−1.645
接受 H 0 : μ = 1 H_0:\mu=1 H0:μ=1。
于是,矛盾出现。若没有任何偏袒,应该既不否定 μ = 0 \mu=0 μ=0 也不否定 μ = 1 \mu=1 μ=1。这取决与调查者要“偏袒”哪一方了。这种偏袒,在实际问题中,往往是必要的。如对一个有传统生产工艺,良好信誉的厂家的商品检验,就应该去原假设为合格产品加以保护,以免因抽样的随机性,而轻易否定该厂家商品的质量。
从另一个角度看,在实际应用中一定要谨慎提出原假设,它最好能够有一定的背景依据,具体如下:
返回目录
Fisher 体系 | Neyman-Pearson 体系 |
---|---|
建立零假设 | 建立两个统计假设,并根据 α , β \alpha, \beta α,β,平衡 cost-benefit,并在进行试验之前设计样本容量 |
使用 p-值 做决定,且不谈“接受”、“拒绝”,而是说“结果是否显著”。当结果不显著时,原则上没有下任何结论、做任何决定,而是保留怀疑以待下次试验 | 若结果落在接受域内,则“接受”原假设。但所谓的接受,也不是完全相信结论是正确的,或者“统计推断”出上面新理论,而是(暂时)找不到反驳的理由而已 |
该方法适用于在对问题知之甚少的情况下,且掌握实验内容的背景下,做出的暂时性结论 | 该方法适用于,有两个假设的情况,且能够对 α , β \alpha, \beta α,β 做出权衡的情况下 |
通过对样本的分析,即 p-值做出结论(试验后方法) | 首先通过对 α 、 β \alpha、\beta α、β的权衡,制定检验标准,设计采样容量(试验前方法),并通过事前制定的标准,判断结果 |
返回目录
现代体系糅合了上述两种体系,同时补充了些许概念。
在某些条件下,仅仅得出无法拒绝、拒绝这两个结论,不够细节,此时一般将 5~7 步骤用以下步骤代替:
返回目录
一些概念如下:
首先原假设、备选假设不再是单一的等式。例如原假设可设为: H 0 : μ ≤ μ 0 H_0:\mu \leq \mu_0 H0:μ≤μ0。
备选假设可以设为: H 1 : μ > μ 0 H_1 :\mu > \mu_0 H1:μ>μ0。两者都不再是单一的取值,都呈现占一边的情况。
更一般的,记原假设为 H 0 : θ ∈ Θ 0 H_0:\theta \in \Theta_0 H0:θ∈Θ0、备选假设为 H 1 : θ ∈ Θ 1 H_1:\theta \in \Theta_1 H1:θ∈Θ1。其中 Θ 0 、 Θ 1 \Theta_0、\Theta_1 Θ0、Θ1 可以是一些点集,也可以是区间。
另外,备选假设可以没有具体分布
依照 Neyman 的方法,用“小概率随机事件在一次试验中很难发生的原理”。首先依旧是给定一个 α \alpha α,取值一般为:0.01/0.05/0.001。由于原假设是受到保护的,拒绝原假设是有力的、显著的,并且拒绝原假设一般要在表明 α \alpha α 的前提下说明,因此这里的 α \alpha α 也称之为显著水平。
当 α 0 > α \alpha_0>\alpha α0>α 时, α 0 \alpha_0 α0 也是显著水平。为了区分这一点,一般把标准(临界值 C 0 C_0 C0)对应的最小 α \alpha α 称为真实水平。一般地,若先给定 α \alpha α,后来求 C 0 C_0 C0,只要是通过严格地极值求取,且检验统计量的分布不是估计的, α \alpha α 都是真实水平。
现代体系和 Neyman 体系 的区别就在于,原假设、备选假设不一定要单独一点。因此,标准是假设参数的函数: ϕ ( θ ) \phi(\theta) ϕ(θ) (若样本结果满足 ϕ \phi ϕ ,则拒绝原假设)。比如:在正态分布验证均值检验中,原假设是: H 0 : μ < μ 0 H_0:\mu < \mu_0 H0:μ<μ0。根据检验标准的制定方法:在原假设成立的条件下,样本结果不满足检验标准的概率小于等于 α \alpha α。所以,在求临界值 C 0 C_0 C0 时,必须使用概率的上确界:
即: s u p Θ 0 { P { ϕ ( θ ) ∣ H 0 : θ ∈ Θ 0 } } ≤ α \underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq\alpha Θ0sup{ P{ ϕ(θ)∣H0:θ∈Θ0} }≤α
由此可以看出,对于那些包含多个量的假设,分别对应多个分布,求临界值时需要求上确界,因此也称为复合假设。相反,对于那些仅有一个点的假设,对应一个分布,则直接计算即可,因此也成为简单假设。
由检验标准确定的,检验统计量的取值范围为拒绝域,亦称临界域,其补集则为接受域。该概念一般用于理论分析。
所谓势,就是 H 1 H_1 H1 为真,且取值为特定的点 θ 0 \theta_0 θ0 下,原假设被拒绝的概率,即:
P { ϕ ∣ θ 0 } , θ 0 ∈ Θ 1 , 即 是 Θ 1 下 特 定 的 一 个 点 P\{\phi|\theta_0\},\theta_0\in\Theta_1,即是\Theta_1下特定的一个点 P{ ϕ∣θ0},θ0∈Θ1,即是Θ1下特定的一个点
因此,势也表示检验能够正确识别特定备选函数的概率。结合前述的 β \beta β,可以定义势为:
P { ϕ ∣ θ 0 } = 1 − β ( θ 0 ) , θ 0 ∈ Θ 1 P\{\phi|\theta_0\}=1-\beta(\theta_0),\theta_0\in\Theta_1 P{ ϕ∣θ0}=1−β(θ0),θ0∈Θ1
若令 θ ∈ Θ 0 + Θ 1 \theta \in\Theta_0+\Theta_1 θ∈Θ0+Θ1,且为一个变量,则可定义势函数:
P { ϕ ∣ θ } , θ ∈ ( Θ 0 + Θ 1 ) P\{\phi|\theta\},\theta\in(\Theta_0+\Theta_1) P{ ϕ∣θ},θ∈(Θ0+Θ1)
可以看到,势函数包括了犯第一类错误的概率,和正确识别备选假设的概率。
也可以看到,在讨论势时,总是在备选假设的一个点的前提下来讨论。
第一类错误即 H 0 H_0 H0 为真时,错误地拒绝原假设的错误,即“弃真”;
第二类错误是指, H 0 H_0 H0 为假时,没有拒绝原假设,即"纳伪";
很明显,犯第一类错误的概率是 α \alpha α,而犯第二类错误的概率是 1 − α 1-\alpha 1−α。但要注意, 备选假设为真,但原假设没被拒绝的概率,不等于犯第二类错误的概率。
特定的备选假设为真时,原假设被拒绝的概率,我们记为 β ( θ 0 ) \beta(\theta_0) β(θ0),或者 1 减去势。特别注意的是,它的讨论,只能在选定特定的备选假设的前提下!
另外,犯第二类错误的概率,为 P { ϕ ˉ ∣ H 0 ˉ } P\{\bar{\phi}|\bar{H_0}\} P{ ϕˉ∣H0ˉ},其中 ϕ ˉ \bar{\phi} ϕˉ 是 ϕ \phi ϕ 的补,若成立,则接受原假设和。 H 0 ˉ \bar{H_0} H0ˉ 是原假设的补,但不一定等于备选假设。
所以所有备选假设的 β ( θ ) , θ ∈ Θ 1 \beta(\theta) , \theta \in\Theta_1 β(θ),θ∈Θ1 的积分,不一定等于第二类错误。除了上述原假设的补不等于备选假设外, 最本质的原因是,将概率对 θ \theta θ 积分得不到 P { ϕ ˉ ∣ H 0 ˉ } P\{\bar{\phi}|\bar{H_0}\} P{ ϕˉ∣H0ˉ}。因为积分后已经脱离了原本的概率空间。
一个良好的检验,应该满足有一个较大的势函数。或者说对每一个 θ ∈ Θ 0 \theta\in\Theta_0 θ∈Θ0, β ( θ ) \beta(\theta) β(θ) 尽可能小。在保证 α \alpha α 为真实水平的情况下,可以通过实验设计:
来实现。
对于备选假设,总有一个 θ 0 , θ 0 ∈ Θ 1 \theta_0, \theta_0 \in \Theta_1 θ0,θ0∈Θ1,满足 β ( θ 0 ) = 1 − α \beta(\theta_0) = 1-\alpha β(θ0)=1−α。这种情况通常发生在 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0:μ=μ0,而 H 1 : μ ≠ μ 0 H_1:\mu \neq\mu_0 H1:μ=μ0, θ 0 → μ 1 \theta_0\to\mu_1 θ0→μ1时。
对于这种属于备选假设,但却非常接近原假设的点,由于接不接受意义不大,且接近于 1 − α 1-\alpha 1−α 的 β ( θ ) \beta(\theta) β(θ) 对应的 θ \theta θ 们,其 β ( θ ) \beta(\theta) β(θ) 不会因为实验设计的调整而变化太多,因此可以考虑 θ ∈ [ θ 0 − Δ , θ 0 + Δ ] \theta\in[\theta_0-\Delta,\theta_0+\Delta] θ∈[θ0−Δ,θ0+Δ] 作为无差别区域。从而,在考虑实验设计时,只考虑采用那些,使得无差别区域以外的那些 β ( θ ) \beta(\theta) β(θ) 小于某个 β \beta β 就行了。
最佳检验要在特定的 α , β \alpha,\beta α,β 来讨论。即 α \alpha α 为真实水平,且备选假设除无差别区域外, β \beta β 是 β ( θ ) \beta(\theta) β(θ) 的上确界的检验。
p-值通过样本结果,计算出检验统计量,对应 s u p Θ 0 { P { ϕ ( θ ) ∣ H 0 : θ ∈ Θ 0 } } ≤ p \underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq p Θ0sup{ P{ ϕ(θ)∣H0:θ∈Θ0} }≤p 中的 p p p。
p-值的作用在于:
返回目录
若采用假设检验中的,制定检验准则的方法,来确定是否拒绝原假设,则可以在给定的显著水平 α \alpha α 下,通过实验设计,将不属于无差别区域的 β ( θ ) \beta(\theta) β(θ) 的上界限制在指定的 β \beta β 上。
假定 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 取自 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) ( σ \sigma σ 已知)总体的一组样本。要检验: H 0 : μ ≤ 0 ; H 1 : μ > 0 H_0:\mu\leq0;H_1:\mu>0 H0:μ≤0;H1:μ>0。
很自然地,选择 T ( X ) = n X ˉ / σ T(\bm{X})=\sqrt{n}\bar{X}/\sigma T(X)=nXˉ/σ 作为检验统计量,从而 T ( X ) − n μ / σ T(\bm{X})-\sqrt{n}\mu/\sigma T(X)−nμ/σ 服从 N ( 0 , 1 ) N(0,1) N(0,1)。检验标准为,当 T ( X ) ≥ C T(\bm{X}) \geq C T(X)≥C 时,拒绝原假设。
于是可得势函数(包括了犯第一类错误的概率):
p ( μ ) = P { T ( X ) ≥ C ∣ μ ∈ ( − ∞ , ∞ ) } = P { n ( X ˉ − μ ) σ ≥ C − n μ σ ∣ μ ∈ ( − ∞ , ∞ ) } = 1 − Φ ( C − n μ σ ) \begin{aligned} p(\mu)&=P\{ T(\bm{X}) \geq C| \mu\in(-\infin,\infin)\} \\ &= P\{ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \geq C-\frac{\sqrt{n}\mu}{\sigma}| \mu\in(-\infin,\infin)\} \\ &=1-\Phi(C-\frac{\sqrt{n}\mu}{\sigma}) \end{aligned} p(μ)=P{ T(X)≥C∣μ∈(−∞,∞)}=P{ σn(Xˉ−μ)≥C−σnμ∣μ∈(−∞,∞)}=1−Φ(C−σnμ)
取 α \alpha α,则根据检验标准的临界值求取法则,有:
s u p μ { P { T ( X ) ≥ C ∣ μ ≤ 0 } } < = α \underset{\mu}{sup} \{P\{ T(\bm{X}) \geq C| \mu \leq 0\}\} <= \alpha μsup{ P{ T(X)≥C∣μ≤0}}<=α
最后得到检验标准的临界值 C 0 C_0 C0
回代入势函数,可得:
p ( μ ) = 1 − Φ ( C 0 − n μ σ ) p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) p(μ)=1−Φ(C0−σnμ)
其中有两个重要的性质:
设无差别区域为 μ ∈ ( 0 , Δ ) \mu\in(0,\Delta) μ∈(0,Δ),则对于 [ Δ , + ∞ ] [\Delta,+\infin] [Δ,+∞],给定一个 β \beta β,使得 p ( μ ) ≥ 1 − β p(\mu)\geq1-\beta p(μ)≥1−β。由于势函数是非减的,故问题转换为临界问题:
p ( μ ) = 1 − Φ ( C 0 − n μ σ ) = 1 − β Φ ( C 0 − n μ σ ) = β \begin{aligned} p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = 1-\beta \\ \Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = \beta \end{aligned} p(μ)=1−Φ(C0−σnμ)=1−βΦ(C0−σnμ)=β
从而得出适当的 n , σ n, \sigma n,σ ,前者对应采样容量,后者是在测量问题上,可考虑提高测量精度。
通过 β , α , Δ \beta,\alpha, \Delta β,α,Δ,即可知道我们进行试验设计,得出适当的 n , σ n, \sigma n,σ 。
返回目录
拒绝原假设是有力的,接受原假设是无力的
原假设与备选假设地位不对等
原假设的提出需要谨慎,一般有四种类型
p-值的作用
前文提到,原假设和备选假设可以是对集合的判断。但有时候,备选假设可以以一种“意义不明确”地形式提出。如淑女品茶问题中,可以将备选假设置为:“同事有辨别茶、奶添加顺序的能力。” 该备选假设,由于没有明确的指明具体要判断的东西,人们可以理解为备选假设成立时,同事猜中茶、奶的概率大于0.5。
另外,对于一些博彩问题,原假设可以设置为:“此人没有作弊”,备选假设为:“此人作弊。” 没有作弊虽然是一种不太明显地提法。
对于这类备选假设,一般是原假设的补集。例如在正态检验中,原假设是:“总体分布为正态分布”,备选假设则为:“总体分布是其他分布”。当原假设为补集时,现代体系比较接近与Fisher 体系。若满足检验标准,此时,不能说接受备选假设,而应该称样本结果显著。毕竟,备选假设的提法比较模糊。
采用 p-值 的一个好处是不需要检验标准,同时能够提出更多的细节。但这并不意味着必须要像 Fisher 体系 一般,不考虑显著水平、势函数和无差别区域。作为一种后数据处理的体系,Fisher 体系一般不需要在事前设计好采样容量等因素。
而现代体系即便采用 p-值 报告结果,也可以事前指定 α , β \alpha,\beta α,β,从而确定采样容量。
现代体系看起来似乎只是以 Neyman-Pearson 为基础,将 p-值 方法融合进去而已,但实际上有本质的区别:
现代体系 | Neyman-Pearson 体系 |
---|---|
假设可以是复合假设 | 假设是简单假设 |
考虑势函数 | 考虑单一的势 |
可以用 p-值 | 没有 p-值的概念 |
Neyman-Pearson 体系是现代体系的特殊情况 |
返回目录
现代的假设检验方法实际上是1920年代,由 Fisher 的显著检验和 Neyman,Pearson 的假设检验体系,两者的各种规则、方法、名词混合的产物。
Ronald Fisher 一开始是研究贝叶斯理论的,但很快就因为贝叶斯理论的主观性(先验概率)失去了兴趣,于是转而去寻求一种更加“客观”的方法来做统计推断。Fisher 作为一个农业统计学家,强调实验设计的严谨性,并假设样本均服从正态分布,从而根据少量的样本推断总体。另一方面,Neyman 和 Pearson,强调数学上的严谨性,并且希望从大量样本(样本服从的分布不仅仅是正态分布)推断总体。
Fisher 推广了显著性检验,他根据总体的概率分布,提出一个原假设,并根据收集来的样本,构造一个检验统计量(他称之为样本),从而根据计算来判断是否拒绝原假设。这种方法没有采用备选假设,因此也没能考虑犯第二类错误的可能性。其比较好的点是,能够通过计算 p-值来帮助调查者决定,是否需要调整抽样设计、或者在原假设无法被拒绝时,首先存疑,等待未来的试验、又或者在主观上抬高自己对原假设的信心。
而 Neyman 的假设检验则不需要调查者根据 p-值,独立作出统计推断。在 Neyman-Pearson 体系中,考虑了两个假设,且两者都存在概率分布。且通过制定标准,来实现两个假设的选择,且可以计算出两类错误的概率,并通过“保一望二”的说法,保证犯第一类错误的概率小于 α \alpha α 的同时,让犯第二类错误的概率尽可能小。
Fisher 和 Neyman 两者发生了比较激烈的论战。后者认为他们的体系是前者的“高级版本”(虽然在他提出 Neyman 体系的论文里,因为写得太过抽象而饱受诟病,且往后的数学家们对他的理论做了非常大的补充)。而 Fisher 像 Neyman 这种在数据收集之前,就进行建模的方法,可能会导致大量的 confusion。
随着 Neyman 开始在西半球找到工作之后,两人的论战逐渐熄火,Neyman 也离开了他较为年轻的伙伴 Pearson。第二次世界大战也让这次论战彻底停下,最终以 1962 年 Fisher 的去世结束。为此,Neyman 还写了一篇对其评价非常之高的悼词。同时 Neyman 也开始在之后的出版物里,加上 p-值 和显著水平。
在大约 1940s 时,统计学界为了在编写教材时,不会让人们因两个体系感到些许冲突,所以逐渐将两者混合在一起。他们接纳了 Neyman-Pearson 体系的严谨数学推论、完善且恰当的术语,同时也接纳了 Fisher 体系的一些方法。比如他们采用了 p-值来代替显著水平,并且一般采用“反证”型的显著检验。
返回目录
概念 | 含义 |
---|---|
原假设/零假设 | 被“保护”的假设 |
备选假设 | 被“歧视”的假设 |
检验标准 | 确定接受域、拒绝域,包含检验统计量、临界值 |
显著水平 | 犯第一类错误的概率,用于确定临界值、试验设计 |
势 | 某特定的备选假设为真时,原假设被拒绝的概率 |
势函数 | 包括所有备选假设的势、犯第一类错误的概率 |
β \beta β | 备选假设为真时,原假设被接受的概率。用于试验设计 |
无差别区域 | 原假设和、备选假设比较接近的区域,在实验设计时往往不考虑 |
p-值 | 样本结果回代检验统计量分布后得到的上确界概率,可用于结果报告、综合不同检验方法 |
显著检验 | “反证法”的假设检验 |
第一类错误 | 原假设为真却被拒绝的概率 |
第二类错误 | 原假设为假却不被拒绝的概率 |
返回目录
返回目录
独立同分布 ↩︎
注意 C 0 C_0 C0 是通过 H 0 H_0 H0 求出来的 ↩︎
注意这里可没说是犯第二类错误的概率 ↩︎
有时也称 U U U 为检验统计量,下文亦如此称呼 ↩︎
小概率是相对原假设成立这一条件而言 ↩︎
以前之所以用检验标准,是因为当时没有计算机,因此需要靠制表的方式略去复杂的计算步骤。 ↩︎