假设检验


假设检验

  • 为何需要假设检验
  • 近代体系(可跳过)
    • 淑女品茶问题与 Fisher 体系
      • 概念
      • 意义
    • Neyman-Pearson 体系
      • 案例
      • 原理
      • 接受域、拒绝域
      • 两类错误
      • 意义
    • 两个体系的异同
  • 现代体系
    • 步骤
    • 概念
    • 实验设计
      • 案例
      • 设计原理
    • 意义
      • 关于备选假设
      • 采用 p-值 报告结果
    • 现代体系和 Neyman-Pearson 体系的异同
  • 历史趣话(可跳过)
  • Technical Note
  • 推荐书目

假设检验_第1张图片


静下心来,文章可能比较抽象,边听雨声边看有助于集中注意力哦~

白噪声播放


为何需要假设检验

我们知道,参数估计是利用样本,直接对总体的参数进行计算的一种统计方法。假设检验是对总体作出一个假设,再根据样本判断该假设是否正确。

好比“求方程的解”和验证“方程的解是某某某”两个问题,是否一样?对于确定性问题,从纯粹逻辑的角度来说,似乎是的。举例来说:

人们普遍认为生命可以由非生命的物质产生,证据是腐败的肉上有白蛆出现。为了检验这一理论,一个叫 Pasteur 的科学家,多次在同一所放置了完全类似的一些正在腐败的肉块,把一些肉块遮掩起来使之遇不到苍蝇,而不遮掩另一些肉块,使之可以遇到苍蝇。结果是蛆在苍蝇能够接触到的肉块上出现了,而在苍蝇不能接触到的肉上并没有出现。按照这一实验结果,生命能自动产生的假设被推翻了,在 Pasteur 的试验结果中,没有任何随机性的因素,所以为了确认这个结论并不需要任何统计学的理论。

但考虑另一种带有随机性的情况:

某厂家向一百货商店长期供应某种货物,双方根据厂家的传统生产水平,定出质量标准,即若次品率超过3%,则百货商店拒收该批货物。
今有一批货物,随机抽43件检验,发现有次品2件,问应如何处理这批货物?如果双方商定用点估计方法作为验收方法,显然2/43>3%,
这批货物是要被拒收的。但是厂家有理由反对用这种方法验收。他们认为,由于抽样是随机的,在这次抽样中次品的频率超过3%,不等于说这批产品的次品率p(概率)超过了3%。好比掷一枚钱币,正反两面出现的概率各为,但若掷两次钱币,不见得正、反各占一半。


所以,对于随机事件来说,估计,特别是点估计,并非检验的等价问题。然而,可以证明的是,区间估计和假设检验是等价的

另外,一些问题也无法用估计来解决。例如以下例子:

为了验证感冒药的疗效,根据如下内容,做出推断。

痊愈着 未痊愈者 合计
未服药 48 52
服药者 56 44
合计 104 96

对于这个问题来说,由于有效和无效是一个模糊概念,因此,不能用参数估计的方式求出确切的值。

所以,综上所述,为何需要统计推断有如下两个原因:

  1. 随机事件的验证无法用计算代替
  2. 一些问题无法用估计解决

返回目录

近代体系(可跳过)

假设检验是根据问题,对研究的总体做出假设,并根据样本来验证假设是否合理。假设检验是一种统计推断的方法,其原理是由于样本信息包含总体信息。

淑女品茶问题与 Fisher 体系

Fisher 的一名同事宣称自己能够辨别一杯茶中,添加茶叶先还是添加牛奶先。于是,Fisher 为了验证这一点,做了一个统计推断实验。首先,他假设这位同事并不如自己所示的,能够分别出茶、奶的添加顺序,并分别按照茶先、奶香对半的方式,泡了8杯茶,并让她品尝后指出奶、茶顺序。记录女同事成功识别出顺序的杯数为 S S S

注意,这里提出了一个假设:同事识别茶、奶的添加顺序是乱猜的。 为了验证该假设是否正确,我们作了 8 次可以视为 iid1 的试验,也即收集到了 8 个样本。并基于这些样本,来判断同事是否具有异能,结果该同事猜中了 7 杯。由于假设中,同事猜中的杯数服从二项分布,因此根据试验结果,若同事乱猜,则猜中 7 杯的概率仅有 3.1%,主观来看很少可能发生,故从反面证明了改同事具备辨别茶、奶顺序的能力。

返回目录

概念

在 Fisher 体系中,待“验证”的假设一般是与实际问题相反的结论,即类似于数学上的“反证法”。在本例中,同事称自己有辨别茶、奶顺序的能力,于是提出的假设则反其道而行之。因此,假设在 Fisher 体系的定义中,假设称为“null hypothesis”,即零/空假设。

零假设中通常蕴含着某些量的分布,就本例来说,即同事正确识别的杯数服从二项分布。从而根据试验结果,或抽样结果,按其分布可结算处结果发生的概率。这个概率也被称为p-值。根据 p-值,结合一些主观地推断,从而得出结论。就本例说 p-值 为 0.03,人们也可以不否定零假设(主观性)。

除此之外,Fisher 体系一般通过否定零假设,从而做出结论。这是因为,若 p-值 特别小,意味着在零假设中,试验结果的发生是小概率事件,也即事件的发生,其代表性是显著的。因此,这类通过“反证法”的试验,通常也称为显著检验

返回目录

意义

在 Fisher 体系中,显著检验严格意义上没有接受的说法,而用结果是否显著来描述。若试验结果的 p-值 并没有给决策者,试验结果显著的印象,则他只是暂时性地作罢,同时总结本次试验,反思一下次试验的设计,并等待着下一次试验能否得出显著性的结果。

另外,若得出的结果是显著性的(是否显著取决于决策者对 p-值 的看法),实际上也没能得出具体的结论。就本例而言,只能得出:“同事可能具备辨别能力”。而这个能力,对应着什么样的分布,是无法说清楚的。

返回目录

Neyman-Pearson 体系

Neyman 体系与 Fisher 体系在同一年代提出。

案例

设总体 X ∼ N ( μ , σ 0 2 ) X\sim N(\mu,\sigma_0^2) XN(μ,σ02),其中 σ 0 \sigma_0 σ0已知,样本容量为 n n n。需要判断总体的均值 μ \mu μ μ 0 \mu_0 μ0还是 μ 1 \mu_1 μ1 ,其中 μ 1 > μ 0 \mu_1>\mu_0 μ1>μ0

这个问题看似有些抽象,就像 1+1 一样,我们可以把它视为“一只牛加一只牛”。这个问题也是如此,如下:


某食品加工厂用自动包装机将食品装袋,规定的重量为 100g。现有人传出公司出现内鬼,将包装机器的某些参数进行微调,使得每袋视频的重量为 105g。由于装袋机内部误差,每袋零食的重量 X 是随机变量,且服从标准差 σ 0 = 2.5 \sigma_0=2.5 σ0=2.5的正态分布。

为了判断出现内鬼的消息是否属实,现从产品中随机地多个样本…


返回目录

原理

对于这个问题,Neyman-Pearson 体系对此分别作出两个假设:
H 0 : μ = μ 0 = 100 H 1 : μ = μ 1 = 105 H_0:\mu=\mu_0=100 \\ H_1:\mu=\mu_1=105 H0μ=μ0=100H1μ=μ1=105
考虑到公司监管制度严格、且装袋机参数调整需要大量的技术要求,因此我们更倾向于 H 0 H_0 H0 是成立的,因此称之为原假设(initial hypothesis)

原假设是一般是由于某理论在先前是被人普遍接受的,但后来有人提出质疑,才将其暂时按在“假设”的地位。在淑女品茶一例中,一般人是没有能力分辨奶、茶的添加顺序的,而该同事表示自己可以(即提出质疑),因此将“她是靠乱猜的”这个原本普遍接受的理论按在“假设”这个位置上。这也是原假设名称的由来,即“原本是普遍接受的,但受到了质疑因此要对其重新检验。”

相反的,原假设的对立面是备选假设

由于假设需要验证的是总体的均值,因此自然而然地可以想到用样本的均值,来制定一个判断的标准。很自然地,可以想到若样本均值 X ˉ \bar{X} Xˉ 大于某个临界值 C C C C C C 可能接近与100),则可以认为原假设被拒绝。这里用来判断的这些通过样本处理而来的数,也叫检验统计量

于是,根据检验统计量、临界值 就可以够成一个检验 ϕ \phi ϕ
ϕ : X ˉ ≥ C \phi : \bar{X} \geq C ϕ:XˉC
若抽样结果使得 ϕ \phi ϕ 成立,则拒绝 H 0 H_0 H0。问题就在于,如何确定临界值呢?

在假设成立的条件下 ,由于 X ˉ \bar{X} Xˉ 满足 μ = 100 \mu=100 μ=100 的正态分布,故在指定的 C C C 下,检验标准 ϕ \phi ϕ 实际上可以视为一个随机事件。由于在理论上,我们偏向于原假设是成立的,因此为了让假设不会被轻易地否定,所以在制定标准时,即在寻找临界值 C C C 时,最好使得 ϕ \phi ϕ 成为一个 小概率事件

也即 P { ϕ ∣ H 0 } = α P\{\phi|H_0\}=\alpha P{ ϕH0}=α 中在 α \alpha α 取值很小的情况下,根据事件的分布倒推出 C C C。传统上为了制表方便,通常 α \alpha α 取值为 0.01/0.05/0.001。在主观地选取完 α \alpha α 后,则可以通过 X ˉ \bar{X} Xˉ 满足 μ = 100 \mu=100 μ=100 的正态分布这一结论,算出临界值 C 0 C_0 C0

得到检验标准之后,若样本结果满足标准,则拒绝原假设,否则不拒绝。于是,从逻辑上看,检验地一刀切,意味着逻辑上认为小概率事件不会发生!

从上述制定临界值的步骤来看,Neyman-Pearson 体系的显著检验,背后的原理是:“小概率事件在一次试验中不会发生” 。“不会发生” 是因为体系中,检验标准成立与否,直接决定了假设是否被接受。“小概率事件” 是因为标准通过“小概率事件”而确定,而样本结果的产生,是一个随机事件。即便 H 0 H_0 H0 成立,也有小概率不满足标准。

返回目录

接受域、拒绝域

得到检验标准 ϕ \phi ϕ 后,即可根据临界值,将检验统计量的取值划分接受域和拒绝域。分别对应样本结果,使得原假设被接受、和拒绝的取值。

两类错误

第一类,如前所述, H 0 H_0 H0 成立却因为样本的随机性,使其没通过标准,从而造成“弃真”的错误。这类错误的发生的概率显然是:
P { ϕ ∣ H 0 } = α P\{\phi|H_0\}=\alpha P{ ϕH0}=α

第二类,则是若备着假设为真,却接受原假设的概率,即“纳伪”。为什么会出现这种错误呢?抛开原假设,则标准 ϕ ˉ : X ˉ < C 0 \bar{\phi}:\bar{X}ϕˉXˉ<C02 H 1 H_1 H1 成立的情况下( X ˉ \bar{X} Xˉ的分布是 μ = 105 \mu=105 μ=105 的正态分布),也具备成立的概率!于是, X ˉ \bar{X} Xˉ 的随机性便会导致 ϕ ˉ \bar{\phi} ϕˉ 满足,而 H 0 H_0 H0 不成立,但 H 1 H_1 H1 成立。

H 1 H_1 H1 为真,但却接受 H 0 H_0 H0 的概率3为:
P { ϕ ˉ ∣ H 1 } = β P\{\bar{\phi}|H_1\}=\beta P{ ϕˉH1}=β

Neyman-Pearson 体系采用一种保一望二的做法,即固定 α \alpha α 再通过筛选合适的检验标准、合理的试验设计来解决。

在固定 α \alpha α 和标准 ϕ : X ˉ ≥ C \phi:\bar{X}\geq C ϕXˉC 的前提下,临界值的求解方法如下:

由于检验统计量 X ˉ \bar{X} Xˉ 可通过计算化为4
U = X ˉ − μ 0 σ / n U=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} U=σ/n Xˉμ0
其中 σ , n \sigma, n σ,n 分别为总体分布的标准差和样本容量。从而 U U U 服从标准正态分布,进而得到 P { X ˉ − μ 0 σ / n ≥ u 1 − α ∣ H 0 } = α P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_0\}=\alpha P{ σ/n Xˉμ0u1αH0}=α

于是检验标准等价于:

  1. u ≥ u 1 − α u\geq u_{1-\alpha} uu1α时,拒绝 H 0 H_0 H0
  2. u < u 1 − α u< u_{1-\alpha} u<u1α时, 接受 H 1 H_1 H1

H 1 H_1 H1 为真,但却接受 H 0 H_0 H0 的概率为;
β = P { ϕ ˉ ∣ H 1 } = P { X ˉ − μ 0 σ / n ≥ u 1 − α ∣ H 1 } \begin{aligned} \beta &=P\{\bar{\phi}|H_1\}\\ &=P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_1\} \end{aligned} β=P{ ϕˉH1}=P{ σ/n Xˉμ0u1αH1}
H 1 H_1 H1 为真实,有:
U = X ˉ − μ 0 σ / n ∼ N ( μ 1 − μ 0 σ / n ) U= \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}) U=σ/n Xˉμ0N(σ/n μ1μ0)
Δ = μ 1 − μ 0 σ / n \Delta =\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}} Δ=σ/n μ1μ0
β = ∫ − ∞ u 1 − α 1 2 π e x p ( ( u − Δ ) 2 2 ) d u \beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(\frac{(u-\Delta)^2}{2}) du β=u1α2π 1exp(2(uΔ)2)du
t = u − Δ t=u-\Delta t=uΔ ,化简为:
β = ∫ − ∞ u 1 − α 1 2 π e x p ( t 2 ) d t = Φ ( u 1 − α − Δ ) \beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(t^2) dt=\Phi(u_{1-\alpha}-\Delta) β=u1α2π 1exp(t2)dt=Φ(u1αΔ)
其中 Φ \Phi Φ 为标准正态分布。可见当 n → ∞ n\to \infin n时, Δ → ∞ \Delta \to \infin Δ,故 β → 0 \beta \to 0 β0 。换句话说,控制 n n n,即可控制 β \beta β

但这里要注意的是,这里所指的 β \beta β,是指不接纳 H 1 H_1 H1 的概率。因此,严格来说, β \beta β 并不是犯第二类错误的概率,因为 β \beta β 没有包含除 H 1 H_1 H1 以外的所有不是 H 0 H_0 H0 的结论。

返回目录

意义

假设检验是一种保护原假设的检验方法,严格意义上来说,如果得出的结论是拒绝原假设,则可以说有 95% 的把握认为原假设是错误的。但反过来,若样本结果不能拒绝原假设,则不一定代表原假设是正确的。

这就好像:

证明了某个爪印不是熊爪印,但也不一定能说明巨人足迹的存在一般。

这是因为,在 Neyman-Pearson 体系中,原假设被拒绝的概率 α \alpha α 越小,则意味着接受域越大,犯第二类错误(即“纳伪”)的概率越大。极端来看,若 α = 0 \alpha = 0 α=0,则:
P { ϕ ∣ H 0 } = 0 P\{\phi|H_0\}=0\\ P{ ϕH0}=0
对于两个互补的假设来说,一般有 P { ϕ ∣ H 0 } = 0 → P { ϕ } = 0 P\{\phi|H_0\}=0 \to P\{\phi\}=0 P{ ϕH0}=0P{ ϕ}=0。也即不管原假设是否成立,样本结果如何,检验标准都不会通过。换句话说: α \alpha α 越小,原假设越不容易被拒绝

从原理来看,通常要否定原假设需要有显著性的事件发生,即对于原假设成立的情况下,试验结果是一个小概率事件,否则就认为原假设成立。因此,在检验中,接受 H 0 H_0 H0,并不等于从逻辑上证明了 H 0 H_0 H0 的成立,只是小概率事件没有发生而已5

简单的说,就是拒绝是有力的,接受是乏力的

原假设和备选假设不一定对称,为了理解这一点,可见下例:


设总体 X ∼ N ( μ , 1 ) X\sim N(\mu,1) XN(μ,1), 样本均值为 X ˉ = 0.5 \bar{X}=0.5 Xˉ=0.5,样本容量 n = 1 n=1 n=1,取 α = 0.05 \alpha=0.05 α=0.05 ,欲检验 μ = 0 , \mu=0, μ=0, 还是 μ = 1 \mu=1 μ=1


分别提出两种假设:

  1. H 0 : μ = 0 ; H 1 : μ = 1 H_0:\mu=0;H_1:\mu=1 H0:μ=0;H1:μ=1
  2. H 0 : μ = 1 ; H 1 : μ = 0 H_0:\mu=1;H_1:\mu=0 H0:μ=1;H1:μ=0

对于(1),可得否定域为 V = { u > u 0.95 = 1.645 } V=\{u>u_{0.95}=1.645\} V={ u>u0.95=1.645},其中检验统计量 u = X ˉ − μ σ / n u=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} u=σ/n Xˉμ,当 H 0 H_0 H0 成立时,可得:
u = 0.5 − 0 1 / 1 = 0.5 < 1.645 u=\frac{0.5-0}{1/\sqrt{1}}=0.5<1.645 u=1/1 0.50=0.5<1.645
接受 H 0 : μ = 0 H_0:\mu=0 H0μ=0

对于(2),可得否定域为 V = { u < u 0.05 = − 1.645 } V=\{uV={ u<u0.05=1.645},其中检验统计量 u = X ˉ − μ σ / n u=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} u=σ/n Xˉμ,当 H 0 H_0 H0 成立时,可得:
u = 0.5 − 1 1 / 1 = − 0.5 > − 1.645 u=\frac{0.5-1}{1/\sqrt{1}}=-0.5>-1.645 u=1/1 0.51=0.5>1.645
接受 H 0 : μ = 1 H_0:\mu=1 H0μ=1

于是,矛盾出现。若没有任何偏袒,应该既不否定 μ = 0 \mu=0 μ=0 也不否定 μ = 1 \mu=1 μ=1。这取决与调查者要“偏袒”哪一方了。这种偏袒,在实际问题中,往往是必要的。如对一个有传统生产工艺,良好信誉的厂家的商品检验,就应该去原假设为合格产品加以保护,以免因抽样的随机性,而轻易否定该厂家商品的质量。

从另一个角度看,在实际应用中一定要谨慎提出原假设,它最好能够有一定的背景依据,具体如下:

原假设经过严格的逻辑证明:
原假设是“某爪印(paw)是巨人的足迹”,备选假设:“某爪印是熊爪印”,若原假设不被拒绝,除非原假设的提出,经过专家的测量、考究,否则不能轻易接受。
是根深蒂固、不易改变、趋近公理化的的习惯、常识:
比如淑女品茶问题,可将原假设设置成:“这个人纯粹依靠猜测”
轻易拒绝会造成损失:
商店在验收厂家货物的时候,若厂家是一个比较稳定、且长期合作的货源,若轻易拒收,会带来比较大的经济损失。所以,在进行是否验收的假设检验时,通常会将原假设设置为该厂家的货物负荷验收要求。并根据厂家的综合情况,选择一个合适的 α \alpha α 进行保护。
用反证法得出结论的情况:
比如某人改进了某机器,并认为这项改进会让生产效率提高。此时,为了让这个结论更加可信,通常用“反证法”的方式,将效率不变作为原假设。只有当原假设被拒绝,他的断言才有力。否则,无话可说。
对于这种通过“反证”的方法来得出想要的结论的,叫做 显著检验

返回目录

两个体系的异同

Fisher 体系 Neyman-Pearson 体系
建立零假设 建立两个统计假设,并根据 α , β \alpha, \beta α,β,平衡 cost-benefit,并在进行试验之前设计样本容量
使用 p-值 做决定,且不谈“接受”、“拒绝”,而是说“结果是否显著”。当结果不显著时,原则上没有下任何结论、做任何决定,而是保留怀疑以待下次试验 若结果落在接受域内,则“接受”原假设。但所谓的接受,也不是完全相信结论是正确的,或者“统计推断”出上面新理论,而是(暂时)找不到反驳的理由而已
该方法适用于在对问题知之甚少的情况下,且掌握实验内容的背景下,做出的暂时性结论 该方法适用于,有两个假设的情况,且能够对 α , β \alpha, \beta α,β 做出权衡的情况下
通过对样本的分析,即 p-值做出结论(试验后方法) 首先通过对 α 、 β \alpha、\beta αβ的权衡,制定检验标准,设计采样容量(试验前方法),并通过事前制定的标准,判断结果

返回目录

现代体系

现代体系糅合了上述两种体系,同时补充了些许概念。

步骤

  1. 在提出假设检验之前,有一个关于某项研究的假设
  2. 根据假设,提出原假设、备选假设。这一步很关键,不严谨的假设制定,直接影响后面的假设检验结果
  3. 对总体和样本,做出一些统计学上的假设,比如独立性、服从正态分布等等。这些假设不一定全是主观臆测,也可以结合历史数据、文献来推断。
  4. 考虑检验统计量,一般检验统计量在原假设成立的情况下,应有特定形式的、容易求解的分布。且检验统计量的得出,要“自然而然”,至少能够面向两个假设。
  5. 选择一个显著水平 α \alpha α,从而求出临界值、接受域、拒绝域。
  6. 从样本中求出检验统计量的值,判断其是否在接受域内,从而考虑不拒绝、拒绝原假设。
  7. 得出结论:1、原假设被拒绝。 2、无法拒绝原假设(缺少细节的)。

在某些条件下,仅仅得出无法拒绝、拒绝这两个结论,不够细节,此时一般将 5~7 步骤用以下步骤代替:

  1. 根据样本,求出检验统计量在取值为 样本结果 时的概率,记为 p-值,根据 p-值的大小判断是否接受,或直接作为结果输出。
  2. 得出结论:p-值 (富含细节的)。

返回目录

概念

一些概念如下:

假设

首先原假设、备选假设不再是单一的等式。例如原假设可设为: H 0 : μ ≤ μ 0 H_0:\mu \leq \mu_0 H0μμ0
备选假设可以设为: H 1 : μ > μ 0 H_1 :\mu > \mu_0 H1μ>μ0。两者都不再是单一的取值,都呈现占一边的情况。
更一般的,记原假设为 H 0 : θ ∈ Θ 0 H_0:\theta \in \Theta_0 H0θΘ0、备选假设为 H 1 : θ ∈ Θ 1 H_1:\theta \in \Theta_1 H1θΘ1。其中 Θ 0 、 Θ 1 \Theta_0、\Theta_1 Θ0Θ1 可以是一些点集,也可以是区间。

  1. Θ \Theta Θ 是双边的区间,如 μ ≠ μ 0 \mu \neq \mu_0 μ=μ0,则成为双边假设
  2. Θ \Theta Θ 是单边的区间,如 μ ≥ μ 0 \mu \geq \mu_0 μμ0,则成为单边假设

另外,备选假设可以没有具体分布

检验标准、显著水平、真实水平、简单假设、复合假设:

依照 Neyman 的方法,用“小概率随机事件在一次试验中很难发生的原理”。首先依旧是给定一个 α \alpha α,取值一般为:0.01/0.05/0.001。由于原假设是受到保护的,拒绝原假设是有力的、显著的,并且拒绝原假设一般要在表明 α \alpha α 的前提下说明,因此这里的 α \alpha α 也称之为显著水平

α 0 > α \alpha_0>\alpha α0>α 时, α 0 \alpha_0 α0 也是显著水平。为了区分这一点,一般把标准(临界值 C 0 C_0 C0)对应的最小 α \alpha α 称为真实水平。一般地,若先给定 α \alpha α,后来求 C 0 C_0 C0,只要是通过严格地极值求取,且检验统计量的分布不是估计的, α \alpha α 都是真实水平。

现代体系和 Neyman 体系 的区别就在于,原假设、备选假设不一定要单独一点。因此,标准是假设参数的函数: ϕ ( θ ) \phi(\theta) ϕ(θ) (若样本结果满足 ϕ \phi ϕ ,则拒绝原假设)。比如:在正态分布验证均值检验中,原假设是: H 0 : μ < μ 0 H_0:\mu < \mu_0 H0μ<μ0。根据检验标准的制定方法:在原假设成立的条件下,样本结果不满足检验标准的概率小于等于 α \alpha α。所以,在求临界值 C 0 C_0 C0 时,必须使用概率的上确界

即: s u p Θ 0 {    P { ϕ ( θ ) ∣ H 0 : θ ∈ Θ 0 }    } ≤ α \underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq\alpha Θ0sup{   P{ ϕ(θ)H0:θΘ0}  }α

由此可以看出,对于那些包含多个量的假设,分别对应多个分布,求临界值时需要求上确界,因此也称为复合假设。相反,对于那些仅有一个点的假设,对应一个分布,则直接计算即可,因此也成为简单假设

接受域、拒绝域:

由检验标准确定的,检验统计量的取值范围为拒绝域,亦称临界域,其补集则为接受域。该概念一般用于理论分析。

势、势函数:

所谓势,就是 H 1 H_1 H1 为真,且取值为特定的点 θ 0 \theta_0 θ0 下,原假设被拒绝的概率,即:
P { ϕ ∣ θ 0 } , θ 0 ∈ Θ 1 , 即 是 Θ 1 下 特 定 的 一 个 点 P\{\phi|\theta_0\},\theta_0\in\Theta_1,即是\Theta_1下特定的一个点 P{ ϕθ0},θ0Θ1,Θ1
因此,势也表示检验能够正确识别特定备选函数的概率。结合前述的 β \beta β,可以定义势为:
P { ϕ ∣ θ 0 } = 1 − β ( θ 0 ) , θ 0 ∈ Θ 1 P\{\phi|\theta_0\}=1-\beta(\theta_0),\theta_0\in\Theta_1 P{ ϕθ0}=1β(θ0),θ0Θ1
若令 θ ∈ Θ 0 + Θ 1 \theta \in\Theta_0+\Theta_1 θΘ0+Θ1,且为一个变量,则可定义势函数:
P { ϕ ∣ θ } , θ ∈ ( Θ 0 + Θ 1 ) P\{\phi|\theta\},\theta\in(\Theta_0+\Theta_1) P{ ϕθ},θ(Θ0+Θ1)
可以看到,势函数包括了犯第一类错误的概率,和正确识别备选假设的概率。

也可以看到,在讨论势时,总是在备选假设的一个点的前提下来讨论。

第一类、第二类错误:

第一类错误即 H 0 H_0 H0 为真时,错误地拒绝原假设的错误,即“弃真”;

第二类错误是指, H 0 H_0 H0 为假时,没有拒绝原假设,即"纳伪";

很明显,犯第一类错误的概率是 α \alpha α,而犯第二类错误的概率是 1 − α 1-\alpha 1α。但要注意, 备选假设为真,但原假设没被拒绝的概率,不等于犯第二类错误的概率。

特定的备选假设为真时,原假设被拒绝的概率,我们记为 β ( θ 0 ) \beta(\theta_0) β(θ0),或者 1 减去势。特别注意的是,它的讨论,只能在选定特定的备选假设的前提下

另外,犯第二类错误的概率,为 P { ϕ ˉ ∣ H 0 ˉ } P\{\bar{\phi}|\bar{H_0}\} P{ ϕˉH0ˉ},其中 ϕ ˉ \bar{\phi} ϕˉ ϕ \phi ϕ 的补,若成立,则接受原假设和。 H 0 ˉ \bar{H_0} H0ˉ 是原假设的补,但不一定等于备选假设。

所以所有备选假设的 β ( θ ) , θ ∈ Θ 1 \beta(\theta) , \theta \in\Theta_1 β(θ),θΘ1积分,不一定等于第二类错误。除了上述原假设的补不等于备选假设外, 最本质的原因是,将概率对 θ \theta θ 积分得不到 P { ϕ ˉ ∣ H 0 ˉ } P\{\bar{\phi}|\bar{H_0}\} P{ ϕˉH0ˉ}。因为积分后已经脱离了原本的概率空间

一个良好的检验,应该满足有一个较大的势函数。或者说对每一个 θ ∈ Θ 0 \theta\in\Theta_0 θΘ0 β ( θ ) \beta(\theta) β(θ) 尽可能小。在保证 α \alpha α 为真实水平的情况下,可以通过实验设计:

  1. 提高采样的精确度
  2. 取合理的采样容量

来实现。

无差别区域:

对于备选假设,总有一个 θ 0 , θ 0 ∈ Θ 1 \theta_0, \theta_0 \in \Theta_1 θ0,θ0Θ1,满足 β ( θ 0 ) = 1 − α \beta(\theta_0) = 1-\alpha β(θ0)=1α。这种情况通常发生在 H 0 : μ = μ 0 H_0:\mu=\mu_0 H0μ=μ0,而 H 1 : μ ≠ μ 0 H_1:\mu \neq\mu_0 H1μ=μ0 θ 0 → μ 1 \theta_0\to\mu_1 θ0μ1时。

对于这种属于备选假设,但却非常接近原假设的点,由于接不接受意义不大,且接近于 1 − α 1-\alpha 1α β ( θ ) \beta(\theta) β(θ) 对应的 θ \theta θ 们,其 β ( θ ) \beta(\theta) β(θ) 不会因为实验设计的调整而变化太多,因此可以考虑 θ ∈ [ θ 0 − Δ , θ 0 + Δ ] \theta\in[\theta_0-\Delta,\theta_0+\Delta] θ[θ0Δ,θ0+Δ] 作为无差别区域。从而,在考虑实验设计时,只考虑采用那些,使得无差别区域以外的那些 β ( θ ) \beta(\theta) β(θ) 小于某个 β \beta β 就行了。

最佳检验:

最佳检验要在特定的 α , β \alpha,\beta α,β 来讨论。即 α \alpha α 为真实水平,且备选假设除无差别区域外, β \beta β β ( θ ) \beta(\theta) β(θ) 的上确界的检验。

p-值

p-值通过样本结果,计算出检验统计量,对应 s u p Θ 0 {    P { ϕ ( θ ) ∣ H 0 : θ ∈ Θ 0 }    } ≤ p \underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq p Θ0sup{   P{ ϕ(θ)H0:θΘ0}  }p 中的 p p p

p-值的作用在于:

  1. 用 p-值 代替检验标准,从而得出结果,将是否拒绝原假设的决定权,交还研究者手上6
    比如:面对同一检验问题,不同的人可能具有不同的真实水平标准。试验者 1 使用真实水平 α = 0.05 \alpha=0.05 α=0.05,而试验者 2 却坚持使用 α = 0.01 \alpha=0.01 α=0.01 。于是两者得出大相径庭的情况。然而,如果两个试验者使用同一个检验统计量,通过 p-值 就可以避免冲突。
  2. p-值相当于标准化了的检验统计量,因此可以考虑用 p-值 来复合多个检验。例如心理现象存在的假设,可用多种检验方法检验,而 p-值 可以作为综合这些检验的依据。

返回目录

实验设计

若采用假设检验中的,制定检验准则的方法,来确定是否拒绝原假设,则可以在给定的显著水平 α \alpha α 下,通过实验设计,将不属于无差别区域的 β ( θ ) \beta(\theta) β(θ) 的上界限制在指定的 β \beta β 上。

案例

假定 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn 取自 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) σ \sigma σ 已知)总体的一组样本。要检验: H 0 : μ ≤ 0 ; H 1 : μ > 0 H_0:\mu\leq0;H_1:\mu>0 H0:μ0H1:μ>0

设计原理

很自然地,选择 T ( X ) = n X ˉ / σ T(\bm{X})=\sqrt{n}\bar{X}/\sigma T(X)=n Xˉ/σ 作为检验统计量,从而 T ( X ) − n μ / σ T(\bm{X})-\sqrt{n}\mu/\sigma T(X)n μ/σ 服从 N ( 0 , 1 ) N(0,1) N(0,1)。检验标准为,当 T ( X ) ≥ C T(\bm{X}) \geq C T(X)C 时,拒绝原假设。

于是可得势函数(包括了犯第一类错误的概率):
p ( μ ) = P { T ( X ) ≥ C ∣ μ ∈ ( − ∞ , ∞ ) } = P { n ( X ˉ − μ ) σ ≥ C − n μ σ ∣ μ ∈ ( − ∞ , ∞ ) } = 1 − Φ ( C − n μ σ ) \begin{aligned} p(\mu)&=P\{ T(\bm{X}) \geq C| \mu\in(-\infin,\infin)\} \\ &= P\{ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \geq C-\frac{\sqrt{n}\mu}{\sigma}| \mu\in(-\infin,\infin)\} \\ &=1-\Phi(C-\frac{\sqrt{n}\mu}{\sigma}) \end{aligned} p(μ)=P{ T(X)Cμ(,)}=P{ σn (Xˉμ)Cσn μμ(,)}=1Φ(Cσn μ)
α \alpha α,则根据检验标准的临界值求取法则,有:
s u p μ { P { T ( X ) ≥ C ∣ μ ≤ 0 } } < = α \underset{\mu}{sup} \{P\{ T(\bm{X}) \geq C| \mu \leq 0\}\} <= \alpha μsup{ P{ T(X)Cμ0}}<=α
最后得到检验标准的临界值 C 0 C_0 C0

回代入势函数,可得:
p ( μ ) = 1 − Φ ( C 0 − n μ σ ) p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) p(μ)=1Φ(C0σn μ)
其中有两个重要的性质:

  1. 势函数是 n μ σ \frac{\sqrt{n}\mu}{\sigma} σn μ 的函数,且是连续的、非减的。
  2. l i m μ → 0 β ( μ ) = α , l i m μ → + ∞ β ( μ ) = 1 \underset{\mu\to0}{lim} \beta(\mu)=\alpha, \underset{\mu\to+\infin}{lim} \beta(\mu)=1 μ0limβ(μ)=α,μ+limβ(μ)=1

设无差别区域为 μ ∈ ( 0 , Δ ) \mu\in(0,\Delta) μ(0,Δ),则对于 [ Δ , + ∞ ] [\Delta,+\infin] [Δ,+],给定一个 β \beta β,使得 p ( μ ) ≥ 1 − β p(\mu)\geq1-\beta p(μ)1β。由于势函数是非减的,故问题转换为临界问题:
p ( μ ) = 1 − Φ ( C 0 − n μ σ ) = 1 − β Φ ( C 0 − n μ σ ) = β \begin{aligned} p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = 1-\beta \\ \Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = \beta \end{aligned} p(μ)=1Φ(C0σn μ)=1βΦ(C0σn μ)=β
从而得出适当的 n , σ n, \sigma n,σ ,前者对应采样容量,后者是在测量问题上,可考虑提高测量精度。

通过 β , α , Δ \beta,\alpha, \Delta β,α,Δ,即可知道我们进行试验设计,得出适当的 n , σ n, \sigma n,σ

返回目录

意义

拒绝原假设是有力的,接受原假设是无力的
原假设与备选假设地位不对等
原假设的提出需要谨慎,一般有四种类型
p-值的作用

关于备选假设

前文提到,原假设和备选假设可以是对集合的判断。但有时候,备选假设可以以一种“意义不明确”地形式提出。如淑女品茶问题中,可以将备选假设置为:“同事有辨别茶、奶添加顺序的能力。” 该备选假设,由于没有明确的指明具体要判断的东西,人们可以理解为备选假设成立时,同事猜中茶、奶的概率大于0.5。

另外,对于一些博彩问题,原假设可以设置为:“此人没有作弊”,备选假设为:“此人作弊。” 没有作弊虽然是一种不太明显地提法。

对于这类备选假设,一般是原假设的补集。例如在正态检验中,原假设是:“总体分布为正态分布”,备选假设则为:“总体分布是其他分布”。当原假设为补集时,现代体系比较接近与Fisher 体系。若满足检验标准,此时,不能说接受备选假设,而应该称样本结果显著。毕竟,备选假设的提法比较模糊。

采用 p-值 报告结果

采用 p-值 的一个好处是不需要检验标准,同时能够提出更多的细节。但这并不意味着必须要像 Fisher 体系 一般,不考虑显著水平、势函数和无差别区域。作为一种后数据处理的体系,Fisher 体系一般不需要在事前设计好采样容量等因素。

而现代体系即便采用 p-值 报告结果,也可以事前指定 α , β \alpha,\beta α,β,从而确定采样容量。

现代体系和 Neyman-Pearson 体系的异同

现代体系看起来似乎只是以 Neyman-Pearson 为基础,将 p-值 方法融合进去而已,但实际上有本质的区别:

现代体系 Neyman-Pearson 体系
假设可以是复合假设 假设是简单假设
考虑势函数 考虑单一的势
可以用 p-值 没有 p-值的概念
Neyman-Pearson 体系是现代体系的特殊情况

返回目录

历史趣话(可跳过)

现代的假设检验方法实际上是1920年代,由 Fisher 的显著检验和 Neyman,Pearson 的假设检验体系,两者的各种规则、方法、名词混合的产物。

Ronald Fisher 一开始是研究贝叶斯理论的,但很快就因为贝叶斯理论的主观性(先验概率)失去了兴趣,于是转而去寻求一种更加“客观”的方法来做统计推断。Fisher 作为一个农业统计学家,强调实验设计的严谨性,并假设样本均服从正态分布,从而根据少量的样本推断总体。另一方面,Neyman 和 Pearson,强调数学上的严谨性,并且希望从大量样本(样本服从的分布不仅仅是正态分布)推断总体。

Fisher 推广了显著性检验,他根据总体的概率分布,提出一个原假设,并根据收集来的样本,构造一个检验统计量(他称之为样本),从而根据计算来判断是否拒绝原假设。这种方法没有采用备选假设,因此也没能考虑犯第二类错误的可能性。其比较好的点是,能够通过计算 p-值来帮助调查者决定,是否需要调整抽样设计、或者在原假设无法被拒绝时,首先存疑,等待未来的试验、又或者在主观上抬高自己对原假设的信心。

而 Neyman 的假设检验则不需要调查者根据 p-值,独立作出统计推断。在 Neyman-Pearson 体系中,考虑了两个假设,且两者都存在概率分布。且通过制定标准,来实现两个假设的选择,且可以计算出两类错误的概率,并通过“保一望二”的说法,保证犯第一类错误的概率小于 α \alpha α 的同时,让犯第二类错误的概率尽可能小。

Fisher 和 Neyman 两者发生了比较激烈的论战。后者认为他们的体系是前者的“高级版本”(虽然在他提出 Neyman 体系的论文里,因为写得太过抽象而饱受诟病,且往后的数学家们对他的理论做了非常大的补充)。而 Fisher 像 Neyman 这种在数据收集之前,就进行建模的方法,可能会导致大量的 confusion。

随着 Neyman 开始在西半球找到工作之后,两人的论战逐渐熄火,Neyman 也离开了他较为年轻的伙伴 Pearson。第二次世界大战也让这次论战彻底停下,最终以 1962 年 Fisher 的去世结束。为此,Neyman 还写了一篇对其评价非常之高的悼词。同时 Neyman 也开始在之后的出版物里,加上 p-值 和显著水平。

在大约 1940s 时,统计学界为了在编写教材时,不会让人们因两个体系感到些许冲突,所以逐渐将两者混合在一起。他们接纳了 Neyman-Pearson 体系的严谨数学推论、完善且恰当的术语,同时也接纳了 Fisher 体系的一些方法。比如他们采用了 p-值来代替显著水平,并且一般采用“反证”型的显著检验。

返回目录

Technical Note

概念 含义
原假设/零假设 被“保护”的假设
备选假设 被“歧视”的假设
检验标准 确定接受域、拒绝域,包含检验统计量、临界值
显著水平 犯第一类错误的概率,用于确定临界值、试验设计
某特定的备选假设为真时,原假设被拒绝的概率
势函数 包括所有备选假设的势、犯第一类错误的概率
β \beta β 备选假设为真时,原假设被接受的概率。用于试验设计
无差别区域 原假设和、备选假设比较接近的区域,在实验设计时往往不考虑
p-值 样本结果回代检验统计量分布后得到的上确界概率,可用于结果报告、综合不同检验方法
显著检验 “反证法”的假设检验
第一类错误 原假设为真却被拒绝的概率
第二类错误 原假设为假却不被拒绝的概率

返回目录

推荐书目

  • P·J·Bickel 著,李泽慧,王嘉澜,林亨译《数理统计——基本概念及专题》,兰州大学出版社,1991年8月第一版。(见 P210~224)
  • 吴翊,李永乐,胡庆军《应用数理统计》,国防科技大学出版社,1995年8月第一版。(P70~74,P91~97)
  • 上海市教育委员会,叶慈南,曹伟丽《应用数理统计》,机械工业出版社,2007年1月第一版,第二次印刷(P102~112)
  • 陈希孺 《概率论与数理统计》,中国科学技术大学出版社,2015年8月第一版,第7次印刷(P192~199)
  • John A. Rice 田金方译《数理统计与数据分析》,机械工业出版社,2011年4月,原书第三版(P229~233)

返回目录


  1. 独立同分布 ↩︎

  2. 注意 C 0 C_0 C0 是通过 H 0 H_0 H0 求出来的 ↩︎

  3. 注意这里可没说是犯第二类错误的概率 ↩︎

  4. 有时也称 U U U 为检验统计量,下文亦如此称呼 ↩︎

  5. 小概率是相对原假设成立这一条件而言 ↩︎

  6. 以前之所以用检验标准,是因为当时没有计算机,因此需要靠制表的方式略去复杂的计算步骤。 ↩︎

你可能感兴趣的:(传统统计学,数据分析,统计学,统计推断,假设检验,显著检验)