zhuo木鸟

假设检验

为何需要假设检验
近代体系（可跳过）
- 淑女品茶问题与 Fisher 体系
- - 概念
  - 意义
- Neyman-Pearson 体系
- - 案例
  - 原理
  - 接受域、拒绝域
  - 两类错误
  - 意义
- 两个体系的异同
现代体系
- 步骤
- 概念
- 实验设计
- - 案例
  - 设计原理
- 意义
- - 关于备选假设
  - 采用 p-值报告结果
- 现代体系和 Neyman-Pearson 体系的异同
历史趣话（可跳过）
Technical Note
推荐书目

静下心来，文章可能比较抽象，边听雨声边看有助于集中注意力哦~

白噪声播放

为何需要假设检验

我们知道，参数估计是利用样本，直接对总体的参数进行计算的一种统计方法。假设检验是对总体作出一个假设，再根据样本判断该假设是否正确。

好比“求方程的解”和验证“方程的解是某某某”两个问题，是否一样？对于确定性问题，从纯粹逻辑的角度来说，似乎是的。举例来说：

人们普遍认为生命可以由非生命的物质产生，证据是腐败的肉上有白蛆出现。为了检验这一理论，一个叫 Pasteur 的科学家，多次在同一所放置了完全类似的一些正在腐败的肉块，把一些肉块遮掩起来使之遇不到苍蝇，而不遮掩另一些肉块，使之可以遇到苍蝇。结果是蛆在苍蝇能够接触到的肉块上出现了，而在苍蝇不能接触到的肉上并没有出现。按照这一实验结果，生命能自动产生的假设被推翻了，在 Pasteur 的试验结果中，没有任何随机性的因素，所以为了确认这个结论并不需要任何统计学的理论。

但考虑另一种带有随机性的情况：

某厂家向一百货商店长期供应某种货物，双方根据厂家的传统生产水平，定出质量标准，即若次品率超过3%,则百货商店拒收该批货物。
今有一批货物，随机抽43件检验，发现有次品2件，问应如何处理这批货物?如果双方商定用点估计方法作为验收方法，显然2/43>3%,
这批货物是要被拒收的。但是厂家有理由反对用这种方法验收。他们认为，由于抽样是随机的，在这次抽样中次品的频率超过3%，不等于说这批产品的次品率p(概率)超过了3%。好比掷一枚钱币，正反两面出现的概率各为，但若掷两次钱币，不见得正、反各占一半。

所以，对于随机事件来说，估计，特别是点估计，并非检验的等价问题。然而，可以证明的是，区间估计和假设检验是等价的。

另外，一些问题也无法用估计来解决。例如以下例子：

为了验证感冒药的疗效，根据如下内容，做出推断。

痊愈着	未痊愈者	合计
未服药	48	52
服药者	56	44
合计	104	96

对于这个问题来说，由于有效和无效是一个模糊概念，因此，不能用参数估计的方式求出确切的值。

所以，综上所述，为何需要统计推断有如下两个原因：

随机事件的验证无法用计算代替
一些问题无法用估计解决

返回目录

近代体系（可跳过）

假设检验是根据问题，对研究的总体做出假设，并根据样本来验证假设是否合理。假设检验是一种统计推断的方法，其原理是由于样本信息包含总体信息。

淑女品茶问题与 Fisher 体系

Fisher 的一名同事宣称自己能够辨别一杯茶中，添加茶叶先还是添加牛奶先。于是，Fisher 为了验证这一点，做了一个统计推断实验。首先，他假设这位同事并不如自己所示的，能够分别出茶、奶的添加顺序，并分别按照茶先、奶香对半的方式，泡了8杯茶，并让她品尝后指出奶、茶顺序。记录女同事成功识别出顺序的杯数为 $S$ 。

注意，这里提出了一个假设：同事识别茶、奶的添加顺序是乱猜的。为了验证该假设是否正确，我们作了 8 次可以视为 iid¹ 的试验，也即收集到了 8 个样本。并基于这些样本，来判断同事是否具有异能，结果该同事猜中了 7 杯。由于假设中，同事猜中的杯数服从二项分布，因此根据试验结果，若同事乱猜，则猜中 7 杯的概率仅有 3.1%，主观来看很少可能发生，故从反面证明了改同事具备辨别茶、奶顺序的能力。

返回目录

概念

在 Fisher 体系中，待“验证”的假设一般是与实际问题相反的结论，即类似于数学上的“反证法”。在本例中，同事称自己有辨别茶、奶顺序的能力，于是提出的假设则反其道而行之。因此，假设在 Fisher 体系的定义中，假设称为“null hypothesis”，即零/空假设。

零假设中通常蕴含着某些量的分布，就本例来说，即同事正确识别的杯数服从二项分布。从而根据试验结果，或抽样结果，按其分布可结算处结果发生的概率。这个概率也被称为p-值。根据 p-值，结合一些主观地推断，从而得出结论。就本例说 p-值为 0.03，人们也可以不否定零假设（主观性）。

除此之外，Fisher 体系一般通过否定零假设，从而做出结论。这是因为，若 p-值特别小，意味着在零假设中，试验结果的发生是小概率事件，也即事件的发生，其代表性是显著的。因此，这类通过“反证法”的试验，通常也称为显著检验。

返回目录

意义

在 Fisher 体系中，显著检验严格意义上没有接受的说法，而用结果是否显著来描述。若试验结果的 p-值并没有给决策者，试验结果显著的印象，则他只是暂时性地作罢，同时总结本次试验，反思一下次试验的设计，并等待着下一次试验能否得出显著性的结果。

另外，若得出的结果是显著性的（是否显著取决于决策者对 p-值的看法），实际上也没能得出具体的结论。就本例而言，只能得出：“同事可能具备辨别能力”。而这个能力，对应着什么样的分布，是无法说清楚的。

返回目录

Neyman-Pearson 体系

Neyman 体系与 Fisher 体系在同一年代提出。

案例

设总体 $X\sim N(\mu,\sigma_0^2)$ ，其中 $\sigma_0$ 已知，样本容量为 $n$ 。需要判断总体的均值 $\mu$ 是 $\mu_0$ 还是 $\mu_1$ ，其中 $\mu_1>\mu_0$ 。

这个问题看似有些抽象，就像 1+1 一样，我们可以把它视为“一只牛加一只牛”。这个问题也是如此，如下：

某食品加工厂用自动包装机将食品装袋，规定的重量为 100g。现有人传出公司出现内鬼，将包装机器的某些参数进行微调，使得每袋视频的重量为 105g。由于装袋机内部误差，每袋零食的重量 X 是随机变量，且服从标准差 $\sigma_0=2.5$ 的正态分布。

为了判断出现内鬼的消息是否属实，现从产品中随机地多个样本…

返回目录

原理

对于这个问题，Neyman-Pearson 体系对此分别作出两个假设：
$H_0：\mu=\mu_0=100 \\ H_1：\mu=\mu_1=105$
考虑到公司监管制度严格、且装袋机参数调整需要大量的技术要求，因此我们更倾向于 $H_0$ 是成立的，因此称之为原假设（initial hypothesis） 。

原假设是一般是由于某理论在先前是被人普遍接受的，但后来有人提出质疑，才将其暂时按在“假设”的地位。在淑女品茶一例中，一般人是没有能力分辨奶、茶的添加顺序的，而该同事表示自己可以（即提出质疑），因此将“她是靠乱猜的”这个原本普遍接受的理论按在“假设”这个位置上。这也是原假设名称的由来，即“原本是普遍接受的，但受到了质疑因此要对其重新检验。”

相反的，原假设的对立面是备选假设。

由于假设需要验证的是总体的均值，因此自然而然地可以想到用样本的均值，来制定一个判断的标准。很自然地，可以想到若样本均值 $\bar{X}$ 大于某个临界值 $C$ （ $C$ 可能接近与100），则可以认为原假设被拒绝。这里用来判断的这些通过样本处理而来的数，也叫检验统计量。

于是，根据检验统计量、临界值就可以够成一个检验 $\phi$ ：
$\phi : \bar{X} \geq C$
若抽样结果使得 $\phi$ 成立，则拒绝 $H_0$ 。问题就在于，如何确定临界值呢？

在假设成立的条件下，由于 $\bar{X}$ 满足 $\mu=100$ 的正态分布，故在指定的 $C$ 下，检验标准 $\phi$ 实际上可以视为一个随机事件。由于在理论上，我们偏向于原假设是成立的，因此为了让假设不会被轻易地否定，所以在制定标准时，即在寻找临界值 $C$ 时，最好使得 $\phi$ 成为一个小概率事件。

也即 $P\{\phi|H_0\}=\alpha$ 中在 $\alpha$ 取值很小的情况下，根据事件的分布倒推出 $C$ 。传统上为了制表方便，通常 $\alpha$ 取值为 0.01/0.05/0.001。在主观地选取完 $\alpha$ 后，则可以通过 $\bar{X}$ 满足 $\mu=100$ 的正态分布这一结论，算出临界值 $C_0$ 。

得到检验标准之后，若样本结果满足标准，则拒绝原假设，否则不拒绝。于是，从逻辑上看，检验地一刀切，意味着逻辑上认为小概率事件不会发生！

从上述制定临界值的步骤来看，Neyman-Pearson 体系的显著检验，背后的原理是：“小概率事件在一次试验中不会发生” 。“不会发生” 是因为体系中，检验标准成立与否，直接决定了假设是否被接受。“小概率事件” 是因为标准通过“小概率事件”而确定，而样本结果的产生，是一个随机事件。即便 $H_0$ 成立，也有小概率不满足标准。

返回目录

接受域、拒绝域

得到检验标准 $\phi$ 后，即可根据临界值，将检验统计量的取值划分接受域和拒绝域。分别对应样本结果，使得原假设被接受、和拒绝的取值。

两类错误

第一类，如前所述， $H_0$ 成立却因为样本的随机性，使其没通过标准，从而造成“弃真”的错误。这类错误的发生的概率显然是：
$P\{\phi|H_0\}=\alpha$

第二类，则是若备着假设为真，却接受原假设的概率，即“纳伪”。为什么会出现这种错误呢？抛开原假设，则标准 $\bar{\phi}：\bar{X}ϕˉ：Xˉ<C0$

记 $H_1$ 为真，但却接受 $H_0$ 的概率³为：
$P\{\bar{\phi}|H_1\}=\beta$

Neyman-Pearson 体系采用一种保一望二的做法，即固定 $\alpha$ 再通过筛选合适的检验标准、合理的试验设计来解决。

在固定 $\alpha$ 和标准 $\phi：\bar{X}\geq C$ 的前提下，临界值的求解方法如下：

由于检验统计量 $\bar{X}$ 可通过计算化为⁴：
$U=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$
其中 $\sigma, n$ 分别为总体分布的标准差和样本容量。从而 $U$ 服从标准正态分布，进而得到 $P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_0\}=\alpha$ 。

于是检验标准等价于：

当 $u\geq u_{1-\alpha}$ 时，拒绝 $H_0$ 。
当 $u_{1-\alpha}$ 时，接受 $H_1$ 。

$H_1$ 为真，但却接受 $H_0$ 的概率为；
$\begin{aligned} \beta &=P\{\bar{\phi}|H_1\}\\ &=P\{\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}\geq u_{1-\alpha}|H_1\} \end{aligned}$
当 $H_1$ 为真实，有：
$\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \sim N(\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}})$
记 $\Delta =\frac{\mu_1-\mu_0}{\sigma/\sqrt{n}}$ ：
$\beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(\frac{(u-\Delta)^2}{2}) du$
令 $t=u-\Delta$ ，化简为：
$\beta = \int_{-\infin}^{u_{1-\alpha}} \frac{1}{\sqrt{2\pi}}exp(t^2) dt=\Phi(u_{1-\alpha}-\Delta)$
其中 $\Phi$ 为标准正态分布。可见当 $n\to \infin$ 时， $\Delta \to \infin$ ，故 $\beta \to 0$ 。换句话说，控制 $n$ ，即可控制 $\beta$ 。

但这里要注意的是，这里所指的 $\beta$ ，是指不接纳 $H_1$ 的概率。因此，严格来说， $\beta$ 并不是犯第二类错误的概率，因为 $\beta$ 没有包含除 $H_1$ 以外的所有不是 $H_0$ 的结论。

返回目录

意义

假设检验是一种保护原假设的检验方法，严格意义上来说，如果得出的结论是拒绝原假设，则可以说有 95% 的把握认为原假设是错误的。但反过来，若样本结果不能拒绝原假设，则不一定代表原假设是正确的。

这就好像：

证明了某个爪印不是熊爪印，但也不一定能说明巨人足迹的存在一般。

这是因为，在 Neyman-Pearson 体系中，原假设被拒绝的概率 $\alpha$ 越小，则意味着接受域越大，犯第二类错误（即“纳伪”）的概率越大。极端来看，若 $\alpha = 0$ ，则：
$P\{\phi|H_0\}=0\\$
对于两个互补的假设来说，一般有 $P\{\phi|H_0\}=0 \to P\{\phi\}=0$ 。也即不管原假设是否成立，样本结果如何，检验标准都不会通过。换句话说： $\alpha$ 越小，原假设越不容易被拒绝。

从原理来看，通常要否定原假设需要有显著性的事件发生，即对于原假设成立的情况下，试验结果是一个小概率事件，否则就认为原假设成立。因此，在检验中，接受 $H_0$ ，并不等于从逻辑上证明了 $H_0$ 的成立，只是小概率事件没有发生而已⁵。

简单的说，就是拒绝是有力的，接受是乏力的。

原假设和备选假设不一定对称，为了理解这一点，可见下例：

设总体 $X\sim N(\mu,1)$ ，样本均值为 $\bar{X}=0.5$ ，样本容量 $n = 1$ ，取 $\alpha=0.05$ ，欲检验 $\mu=0,$ 还是 $\mu=1$ 。

分别提出两种假设：

$H_0:\mu=0;H_1:\mu=1$
$H_0:\mu=1;H_1:\mu=0$

对于（1），可得否定域为 $V=\{u>u_{0.95}=1.645\}$ ，其中检验统计量 $u=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ ，当 $H_0$ 成立时，可得：
$u=\frac{0.5-0}{1/\sqrt{1}}=0.5<1.645$
接受 $H_0：\mu=0$ 。

对于（2），可得否定域为 $V=\{uV={ u<u0.05=−1.645}$

于是，矛盾出现。若没有任何偏袒，应该既不否定 $\mu=0$ 也不否定 $\mu=1$ 。这取决与调查者要“偏袒”哪一方了。这种偏袒，在实际问题中，往往是必要的。如对一个有传统生产工艺，良好信誉的厂家的商品检验，就应该去原假设为合格产品加以保护，以免因抽样的随机性，而轻易否定该厂家商品的质量。

从另一个角度看，在实际应用中一定要谨慎提出原假设，它最好能够有一定的背景依据，具体如下：

原假设经过严格的逻辑证明：

原假设是“某爪印（paw）是巨人的足迹”，备选假设：“某爪印是熊爪印”，若原假设不被拒绝，除非原假设的提出，经过专家的测量、考究，否则不能轻易接受。

是根深蒂固、不易改变、趋近公理化的的习惯、常识：

比如淑女品茶问题，可将原假设设置成：“这个人纯粹依靠猜测”

轻易拒绝会造成损失：

商店在验收厂家货物的时候，若厂家是一个比较稳定、且长期合作的货源，若轻易拒收，会带来比较大的经济损失。所以，在进行是否验收的假设检验时，通常会将原假设设置为该厂家的货物负荷验收要求。并根据厂家的综合情况，选择一个合适的

\alpha

进行保护。

用反证法得出结论的情况：

比如某人改进了某机器，并认为这项改进会让生产效率提高。此时，为了让这个结论更加可信，通常用“反证法”的方式，将效率不变作为原假设。只有当原假设被拒绝，他的断言才有力。否则，无话可说。

对于这种通过“反证”的方法来得出想要的结论的，叫做 显著检验。

返回目录

两个体系的异同

Fisher 体系	Neyman-Pearson 体系
建立零假设	建立两个统计假设，并根据 $\alpha, \beta$ ，平衡 cost-benefit，并在进行试验之前设计样本容量
使用 p-值做决定，且不谈“接受”、“拒绝”，而是说“结果是否显著”。当结果不显著时，原则上没有下任何结论、做任何决定，而是保留怀疑以待下次试验	若结果落在接受域内，则“接受”原假设。但所谓的接受，也不是完全相信结论是正确的，或者“统计推断”出上面新理论，而是（暂时）找不到反驳的理由而已
该方法适用于在对问题知之甚少的情况下，且掌握实验内容的背景下，做出的暂时性结论	该方法适用于，有两个假设的情况，且能够对 $\alpha, \beta$ 做出权衡的情况下
通过对样本的分析，即 p-值做出结论（试验后方法）	首先通过对 $\alpha、\beta$ 的权衡，制定检验标准，设计采样容量（试验前方法），并通过事前制定的标准，判断结果

返回目录

现代体系

现代体系糅合了上述两种体系，同时补充了些许概念。

步骤

在提出假设检验之前，有一个关于某项研究的假设
根据假设，提出原假设、备选假设。这一步很关键，不严谨的假设制定，直接影响后面的假设检验结果
对总体和样本，做出一些统计学上的假设，比如独立性、服从正态分布等等。这些假设不一定全是主观臆测，也可以结合历史数据、文献来推断。
考虑检验统计量，一般检验统计量在原假设成立的情况下，应有特定形式的、容易求解的分布。且检验统计量的得出，要“自然而然”，至少能够面向两个假设。
选择一个显著水平 $\alpha$ ，从而求出临界值、接受域、拒绝域。
从样本中求出检验统计量的值，判断其是否在接受域内，从而考虑不拒绝、拒绝原假设。
得出结论：1、原假设被拒绝。 2、无法拒绝原假设（缺少细节的）。

在某些条件下，仅仅得出无法拒绝、拒绝这两个结论，不够细节，此时一般将 5~7 步骤用以下步骤代替：

根据样本，求出检验统计量在取值为样本结果时的概率，记为 p-值，根据 p-值的大小判断是否接受，或直接作为结果输出。
得出结论：p-值（富含细节的）。

返回目录

概念

一些概念如下：

假设：

首先原假设、备选假设不再是单一的等式。例如原假设可设为： $H_0：\mu \leq \mu_0$ 。
备选假设可以设为： $H_1 ：\mu > \mu_0$ 。两者都不再是单一的取值，都呈现占一边的情况。
更一般的，记原假设为 $H_0：\theta \in \Theta_0$ 、备选假设为 $H_1：\theta \in \Theta_1$ 。其中 $\Theta_0、\Theta_1$ 可以是一些点集，也可以是区间。

若 $\Theta$ 是双边的区间，如 $\mu \neq \mu_0$ ，则成为双边假设
若 $\Theta$ 是单边的区间，如 $\mu \geq \mu_0$ ，则成为单边假设

另外，备选假设可以没有具体分布

检验标准、显著水平、真实水平、简单假设、复合假设：

依照 Neyman 的方法，用“小概率随机事件在一次试验中很难发生的原理”。首先依旧是给定一个 $\alpha$ ，取值一般为：0.01/0.05/0.001。由于原假设是受到保护的，拒绝原假设是有力的、显著的，并且拒绝原假设一般要在表明 $\alpha$ 的前提下说明，因此这里的 $\alpha$ 也称之为显著水平。

当 $\alpha_0>\alpha$ 时， $\alpha_0$ 也是显著水平。为了区分这一点，一般把标准（临界值 $C_0$ ）对应的最小 $\alpha$ 称为真实水平。一般地，若先给定 $\alpha$ ，后来求 $C_0$ ，只要是通过严格地极值求取，且检验统计量的分布不是估计的， $\alpha$ 都是真实水平。

现代体系和 Neyman 体系的区别就在于，原假设、备选假设不一定要单独一点。因此，标准是假设参数的函数： $\phi(\theta)$ （若样本结果满足 $\phi$ ，则拒绝原假设）。比如：在正态分布验证均值检验中，原假设是： $H_0：\mu < \mu_0$ 。根据检验标准的制定方法：在原假设成立的条件下，样本结果不满足检验标准的概率小于等于 $\alpha$ 。所以，在求临界值 $C_0$ 时，必须使用概率的上确界：

即： $\underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq\alpha$

由此可以看出，对于那些包含多个量的假设，分别对应多个分布，求临界值时需要求上确界，因此也称为复合假设。相反，对于那些仅有一个点的假设，对应一个分布，则直接计算即可，因此也成为简单假设。

接受域、拒绝域：

由检验标准确定的，检验统计量的取值范围为拒绝域，亦称临界域，其补集则为接受域。该概念一般用于理论分析。

势、势函数：

所谓势，就是 $H_1$ 为真，且取值为特定的点 $\theta_0$ 下，原假设被拒绝的概率，即：
$P\{\phi|\theta_0\},\theta_0\in\Theta_1,即是\Theta_1下特定的一个点$
因此，势也表示检验能够正确识别特定备选函数的概率。结合前述的 $\beta$ ，可以定义势为：
$P\{\phi|\theta_0\}=1-\beta(\theta_0),\theta_0\in\Theta_1$
若令 $\theta \in\Theta_0+\Theta_1$ ，且为一个变量，则可定义势函数：
$P\{\phi|\theta\},\theta\in(\Theta_0+\Theta_1)$
可以看到，势函数包括了犯第一类错误的概率，和正确识别备选假设的概率。

也可以看到，在讨论势时，总是在备选假设的一个点的前提下来讨论。

第一类、第二类错误：

第一类错误即 $H_0$ 为真时，错误地拒绝原假设的错误，即“弃真”；

第二类错误是指， $H_0$ 为假时，没有拒绝原假设，即"纳伪"；

很明显，犯第一类错误的概率是 $\alpha$ ，而犯第二类错误的概率是 $1-\alpha$ 。但要注意，备选假设为真，但原假设没被拒绝的概率，不等于犯第二类错误的概率。

特定的备选假设为真时，原假设被拒绝的概率，我们记为 $\beta(\theta_0)$ ，或者 1 减去势。特别注意的是，它的讨论，只能在选定特定的备选假设的前提下！

另外，犯第二类错误的概率，为 $P\{\bar{\phi}|\bar{H_0}\}$ ，其中 $\bar{\phi}$ 是 $\phi$ 的补，若成立，则接受原假设和。 $\bar{H_0}$ 是原假设的补，但不一定等于备选假设。

所以所有备选假设的 $\beta(\theta) , \theta \in\Theta_1$ 的积分，不一定等于第二类错误。除了上述原假设的补不等于备选假设外，最本质的原因是，将概率对 $\theta$ 积分得不到 $P\{\bar{\phi}|\bar{H_0}\}$ 。因为积分后已经脱离了原本的概率空间。

一个良好的检验，应该满足有一个较大的势函数。或者说对每一个 $\theta\in\Theta_0$ ， $\beta(\theta)$ 尽可能小。在保证 $\alpha$ 为真实水平的情况下，可以通过实验设计：

提高采样的精确度
取合理的采样容量

来实现。

无差别区域：

对于备选假设，总有一个 $\theta_0, \theta_0 \in \Theta_1$ ，满足 $\beta(\theta_0) = 1-\alpha$ 。这种情况通常发生在 $H_0：\mu=\mu_0$ ，而 $H_1：\mu \neq\mu_0$ ， $\theta_0\to\mu_1$ 时。

对于这种属于备选假设，但却非常接近原假设的点，由于接不接受意义不大，且接近于 $1-\alpha$ 的 $\beta(\theta)$ 对应的 $\theta$ 们，其 $\beta(\theta)$ 不会因为实验设计的调整而变化太多，因此可以考虑 $\theta\in[\theta_0-\Delta,\theta_0+\Delta]$ 作为无差别区域。从而，在考虑实验设计时，只考虑采用那些，使得无差别区域以外的那些 $\beta(\theta)$ 小于某个 $\beta$ 就行了。

最佳检验：

最佳检验要在特定的 $\alpha,\beta$ 来讨论。即 $\alpha$ 为真实水平，且备选假设除无差别区域外， $\beta$ 是 $\beta(\theta)$ 的上确界的检验。

p-值：

p-值通过样本结果，计算出检验统计量，对应 $\underset{\Theta_0}{sup}\{~~P\{\phi(\theta)|H_0:\theta \in \Theta_0\}~~\}\leq p$ 中的 $p$ 。

p-值的作用在于：

用 p-值代替检验标准，从而得出结果，将是否拒绝原假设的决定权，交还研究者手上⁶。
比如：面对同一检验问题，不同的人可能具有不同的真实水平标准。试验者 1 使用真实水平 $\alpha=0.05$ ，而试验者 2 却坚持使用 $\alpha=0.01$ 。于是两者得出大相径庭的情况。然而，如果两个试验者使用同一个检验统计量，通过 p-值就可以避免冲突。
p-值相当于标准化了的检验统计量，因此可以考虑用 p-值来复合多个检验。例如心理现象存在的假设，可用多种检验方法检验，而 p-值可以作为综合这些检验的依据。

返回目录

实验设计

若采用假设检验中的，制定检验准则的方法，来确定是否拒绝原假设，则可以在给定的显著水平 $\alpha$ 下，通过实验设计，将不属于无差别区域的 $\beta(\theta)$ 的上界限制在指定的 $\beta$ 上。

案例

假定 $X_1,X_2,\cdots,X_n$ 取自 $N(\mu,\sigma^2)$ （ $\sigma$ 已知）总体的一组样本。要检验： $H_0:\mu\leq0；H_1:\mu>0$ 。

设计原理

很自然地，选择 $T(\bm{X})=\sqrt{n}\bar{X}/\sigma$ 作为检验统计量，从而 $T(\bm{X})-\sqrt{n}\mu/\sigma$ 服从 $N (0, 1)$ 。检验标准为，当 $T(\bm{X}) \geq C$ 时，拒绝原假设。

于是可得势函数（包括了犯第一类错误的概率）：
$\begin{aligned} p(\mu)&=P\{ T(\bm{X}) \geq C| \mu\in(-\infin,\infin)\} \\ &= P\{ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \geq C-\frac{\sqrt{n}\mu}{\sigma}| \mu\in(-\infin,\infin)\} \\ &=1-\Phi(C-\frac{\sqrt{n}\mu}{\sigma}) \end{aligned}$
取 $\alpha$ ，则根据检验标准的临界值求取法则，有：
$\underset{\mu}{sup} \{P\{ T(\bm{X}) \geq C| \mu \leq 0\}\} <= \alpha$
最后得到检验标准的临界值 $C_0$

回代入势函数，可得：
$p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma})$
其中有两个重要的性质：

势函数是 $\frac{\sqrt{n}\mu}{\sigma}$ 的函数，且是连续的、非减的。
$\underset{\mu\to0}{lim} \beta(\mu)=\alpha, \underset{\mu\to+\infin}{lim} \beta(\mu)=1$

设无差别区域为 $\mu\in(0,\Delta)$ ，则对于 $[\Delta,+\infin]$ ，给定一个 $\beta$ ，使得 $p(\mu)\geq1-\beta$ 。由于势函数是非减的，故问题转换为临界问题：
$\begin{aligned} p(\mu) = 1-\Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = 1-\beta \\ \Phi(C_0-\frac{\sqrt{n}\mu}{\sigma}) = \beta \end{aligned}$
从而得出适当的 $\sigma$ ，前者对应采样容量，后者是在测量问题上，可考虑提高测量精度。

通过 $\beta,\alpha, \Delta$ ，即可知道我们进行试验设计，得出适当的 $\sigma$ 。

返回目录

意义

拒绝原假设是有力的，接受原假设是无力的
原假设与备选假设地位不对等
原假设的提出需要谨慎，一般有四种类型
p-值的作用

关于备选假设

前文提到，原假设和备选假设可以是对集合的判断。但有时候，备选假设可以以一种“意义不明确”地形式提出。如淑女品茶问题中，可以将备选假设置为：“同事有辨别茶、奶添加顺序的能力。” 该备选假设，由于没有明确的指明具体要判断的东西，人们可以理解为备选假设成立时，同事猜中茶、奶的概率大于0.5。

另外，对于一些博彩问题，原假设可以设置为：“此人没有作弊”，备选假设为：“此人作弊。” 没有作弊虽然是一种不太明显地提法。

对于这类备选假设，一般是原假设的补集。例如在正态检验中，原假设是：“总体分布为正态分布”，备选假设则为：“总体分布是其他分布”。当原假设为补集时，现代体系比较接近与Fisher 体系。若满足检验标准，此时，不能说接受备选假设，而应该称样本结果显著。毕竟，备选假设的提法比较模糊。

采用 p-值报告结果

采用 p-值的一个好处是不需要检验标准，同时能够提出更多的细节。但这并不意味着必须要像 Fisher 体系一般，不考虑显著水平、势函数和无差别区域。作为一种后数据处理的体系，Fisher 体系一般不需要在事前设计好采样容量等因素。

而现代体系即便采用 p-值报告结果，也可以事前指定 $\alpha,\beta$ ，从而确定采样容量。

现代体系和 Neyman-Pearson 体系的异同

现代体系看起来似乎只是以 Neyman-Pearson 为基础，将 p-值方法融合进去而已，但实际上有本质的区别：

现代体系	Neyman-Pearson 体系
假设可以是复合假设	假设是简单假设
考虑势函数	考虑单一的势
可以用 p-值	没有 p-值的概念
Neyman-Pearson 体系是现代体系的特殊情况

返回目录

历史趣话（可跳过）

现代的假设检验方法实际上是1920年代，由 Fisher 的显著检验和 Neyman，Pearson 的假设检验体系，两者的各种规则、方法、名词混合的产物。

Ronald Fisher 一开始是研究贝叶斯理论的，但很快就因为贝叶斯理论的主观性（先验概率）失去了兴趣，于是转而去寻求一种更加“客观”的方法来做统计推断。Fisher 作为一个农业统计学家，强调实验设计的严谨性，并假设样本均服从正态分布，从而根据少量的样本推断总体。另一方面，Neyman 和 Pearson，强调数学上的严谨性，并且希望从大量样本（样本服从的分布不仅仅是正态分布）推断总体。

Fisher 推广了显著性检验，他根据总体的概率分布，提出一个原假设，并根据收集来的样本，构造一个检验统计量（他称之为样本），从而根据计算来判断是否拒绝原假设。这种方法没有采用备选假设，因此也没能考虑犯第二类错误的可能性。其比较好的点是，能够通过计算 p-值来帮助调查者决定，是否需要调整抽样设计、或者在原假设无法被拒绝时，首先存疑，等待未来的试验、又或者在主观上抬高自己对原假设的信心。

而 Neyman 的假设检验则不需要调查者根据 p-值，独立作出统计推断。在 Neyman-Pearson 体系中，考虑了两个假设，且两者都存在概率分布。且通过制定标准，来实现两个假设的选择，且可以计算出两类错误的概率，并通过“保一望二”的说法，保证犯第一类错误的概率小于 $\alpha$ 的同时，让犯第二类错误的概率尽可能小。

Fisher 和 Neyman 两者发生了比较激烈的论战。后者认为他们的体系是前者的“高级版本”（虽然在他提出 Neyman 体系的论文里，因为写得太过抽象而饱受诟病，且往后的数学家们对他的理论做了非常大的补充）。而 Fisher 像 Neyman 这种在数据收集之前，就进行建模的方法，可能会导致大量的 confusion。

随着 Neyman 开始在西半球找到工作之后，两人的论战逐渐熄火，Neyman 也离开了他较为年轻的伙伴 Pearson。第二次世界大战也让这次论战彻底停下，最终以 1962 年 Fisher 的去世结束。为此，Neyman 还写了一篇对其评价非常之高的悼词。同时 Neyman 也开始在之后的出版物里，加上 p-值和显著水平。

在大约 1940s 时，统计学界为了在编写教材时，不会让人们因两个体系感到些许冲突，所以逐渐将两者混合在一起。他们接纳了 Neyman-Pearson 体系的严谨数学推论、完善且恰当的术语，同时也接纳了 Fisher 体系的一些方法。比如他们采用了 p-值来代替显著水平，并且一般采用“反证”型的显著检验。

返回目录

Technical Note

概念	含义
原假设/零假设	被“保护”的假设
备选假设	被“歧视”的假设
检验标准	确定接受域、拒绝域，包含检验统计量、临界值
显著水平	犯第一类错误的概率，用于确定临界值、试验设计
势	某特定的备选假设为真时，原假设被拒绝的概率
势函数	包括所有备选假设的势、犯第一类错误的概率
$\beta$	备选假设为真时，原假设被接受的概率。用于试验设计
无差别区域	原假设和、备选假设比较接近的区域，在实验设计时往往不考虑
p-值	样本结果回代检验统计量分布后得到的上确界概率，可用于结果报告、综合不同检验方法
显著检验	“反证法”的假设检验
第一类错误	原假设为真却被拒绝的概率
第二类错误	原假设为假却不被拒绝的概率

返回目录

假设检验

假设检验

为何需要假设检验

近代体系（可跳过）

淑女品茶问题与 Fisher 体系

概念

意义

Neyman-Pearson 体系

案例

原理

接受域、拒绝域

两类错误

意义

两个体系的异同

现代体系

步骤

概念

实验设计

案例

设计原理

意义

关于备选假设

采用 p-值 报告结果

现代体系和 Neyman-Pearson 体系的异同

历史趣话（可跳过）

Technical Note

推荐书目

你可能感兴趣的:(传统统计学,数据分析,统计学,统计推断,假设检验,显著检验)

采用 p-值报告结果