假设检验(hypothesis testing),又称统计假设检验,先做出某种假设,然后通过抽样收集数据进行统计推理,对此假设应该被拒绝还是接受做出推断。
e.g. 某药品 X X X可以起到降血糖的作用,为检验其药效,随机抽取 9 9 9位实验者。记录服药前的血糖值,然后让每位实验者服用该药物,连续服药一周后,再次记录其血糖值度。服药前后血糖差值如下: 1.5 , 0.6 , − 0.3 , 1.1 , − 0.8 , 0 , 2.2 , − 1.0 , 1.4 1.5, 0.6, -0.3, 1.1,-0.8, 0, 2.2, -1.0, 1.4 1.5,0.6,−0.3,1.1,−0.8,0,2.2,−1.0,1.4问题:根据目前的样本能否认为该药物有效的?
原假设(零假设) H 0 H_0 H0,备择假设 (对立假设) H 1 H_1 H1。
原假设与备择假设是不对称的,决定谁是原假设,依赖于立场、惯例、方便性。
(1)保护原假设:如果错误地拒绝假设A比错误地拒绝假设B带来更严重的后果——A选作原假设。
“有毒副作用”错误地当成“无毒副作用”比“无毒副作用”错误地当成“有毒副作用”带来的后果更严重,因此A选作原假设 H 0 H0 H0。
(2)原假设为维持现状:为解释某些现象或效果的存在性,原假设常取为“无效果”、“无改进”、“无差异”,等,拒绝原假设表示有较强的理由支持备择假设。
(3)原假设取简单假设:只有一个参数(或分布)的假设称为简单假设.如果只有一个假设是简单假设,将其取为原假设。
设 θ \theta θ是反映总体指标某方面特征的量, 是我们感兴趣的参数,一般参数 θ \theta θ的假设有三种情形:
其中, H 0 : θ ≥ θ 0 , H 1 : θ < θ 0 H_0:\theta \geq \theta_0,H_1:\theta < \theta_0 H0:θ≥θ0,H1:θ<θ0 (左边检验)与 H 0 : θ = θ 0 , H 1 : θ < θ 0 H_0:\theta = \theta_0,H_1:\theta < \theta_0 H0:θ=θ0,H1:θ<θ0(左边检验)的检验法则与检验效果一致。
同理, H 0 : θ ≤ θ 0 , H 1 : θ > θ 0 H_0:\theta \leq \theta_0,H_1:\theta > \theta_0 H0:θ≤θ0,H1:θ>θ0 (右边检验)与 H 0 : θ = θ 0 , H 1 : θ > θ 0 H_0:\theta = \theta_0,H_1:\theta > \theta_0 H0:θ=θ0,H1:θ>θ0(右边检验)的检验法则与检验效果一致。
如果统计量 T = T ( X 1 , . . . , X n ) T=T(X_1,...,X_n) T=T(X1,...,Xn)的取值大小和原假设 H 0 H_0 H0是否成立有密切联系,可将其称为对应假设问题的检验统计量,而对应于拒绝原假设 H 0 H_0 H0时,样本值的范围称为拒绝域,记为 W W W,其补集 W ˉ \bar W Wˉ称为接受域。
该例中,设服药前后血糖差值 X ∼ N ( μ , σ 2 ) X \sim N(\mu ,\sigma^2) X∼N(μ,σ2),并假设 σ = 0.36 \sigma^ = 0.36 σ=0.36。
假设检验: H 0 : μ = 0 , H 1 : μ > 0 H_0:\mu=0,H_1:\mu>0 H0:μ=0,H1:μ>0
由于 X ˉ \bar X Xˉ是 μ \mu μ的无偏估计, X ˉ \bar X Xˉ的取值大小反映了 μ \mu μ的取值大小,当原假设成立时(药物无效), X ˉ \bar X Xˉ取值应偏小。
因此
本例中检验统计量 X X X,拒绝域 W = { ( X 1 , . . . , X n ) : X ˉ ≥ C } W = \{(X_1,...,X_n): \bar X \geq C \} W={(X1,...,Xn):Xˉ≥C}
关键问题:如何选择 C C C
由于样本的随机性,任一检验规则在应用时,都有可能发生错误的判断——两类错误。
原假设为真 | 原假设为假 | |
---|---|---|
拒绝原假设 | I I I 类错误 | 正确 |
接受原假设 | 正确 | I I II II 类错误 |
令
e.g. 总体 X ∼ N ( μ , 1 ) X \sim N(\mu,1) X∼N(μ,1),则 X ˉ = 1 n ∑ i = 1 n X i ∼ N ( μ , 1 n ) \bar X = \frac{1}{n}\sum_{i=1}^{n}X_i \sim N(\mu, \frac{1}{n}) Xˉ=n1i=1∑nXi∼N(μ,n1)
H 0 : μ = μ 0 , H 1 : μ = μ 1 ( > μ 0 ) H_0:\mu = \mu_0,H_1:\mu=\mu_1(>\mu_0) H0:μ=μ0,H1:μ=μ1(>μ0),拒绝域: X ˉ ≥ C \bar X \geq C Xˉ≥C
犯两类错误的概率相互制约。
Neyman-Pearson原则
首先控制犯第 I I I类错误的概率不超过某个常数 α ∈ ( 0 , 1 ) \alpha \in (0,1) α∈(0,1),再寻找检验,使得犯第 I I II II类错误的概率尽可能小。 α \alpha α称为显著水平。常取 α = 0.01 , 0.05 , 0.1 \alpha = 0.01,0.05,0.1 α=0.01,0.05,0.1等。
本例中,取显著水平 α = 0.05 \alpha = 0.05 α=0.05。
当 H 0 : μ = 0 H_0:\mu=0 H0:μ=0成立时, X ˉ 0.6 / 9 ∼ N ( 0 , 1 ) \frac{\bar X}{0.6 / \sqrt{9}}\sim N(0,1) 0.6/9Xˉ∼N(0,1)
犯第 I I I类错误的概率
P { X ˉ ≥ ∣ μ = 0 } = P { X ˉ σ / n ≥ C σ / n ∣ μ = 0 } = 1 − Φ ( C σ / n ) ≤ α = 0.05 \begin{aligned} P\{\bar X \ge \mid \mu = 0\} & = P\{\frac{\bar X}{\sigma / \sqrt{n}} \ge \frac{C}{\sigma / \sqrt{n}} \mid \mu =0 \} \\ & = 1 - \Phi( \frac{C}{\sigma / \sqrt{n}}) \\ & \leq \alpha = 0.05 \end{aligned} P{Xˉ≥∣μ=0}=P{σ/nXˉ≥σ/nC∣μ=0}=1−Φ(σ/nC)≤α=0.05
Φ ( − z 0.05 ) = 0.05 \Phi(-z_{0.05}) = 0.05 Φ(−z0.05)=0.05, C 0.6 / 9 ≥ z 0.05 = 1.645 ⟹ C ≥ 0.329 \frac{C}{0.6 / \sqrt{9}} \ge z_{0.05} = 1.645 \Longrightarrow C \ge 0.329 0.6/9C≥z0.05=1.645⟹C≥0.329
根据Neyman-Pearson原则,为使犯第 I I II II类错误的概率尽可能小,应取 C = 0.329 C=0.329 C=0.329,因此拒绝域为 W = { X ˉ ≥ 0.329 } W = \{\bar X \ge 0.329\} W={Xˉ≥0.329}
根据样本, x ˉ = 0.522 > 0.329 \bar x = 0.522 > 0.329 xˉ=0.522>0.329,在拒绝域内。
当原假设 H 0 H_0 H0成立时,样本落在拒绝域的概率不超过0.05,是小概率事件。根据实际推断原理,有充分的理由拒绝原假设(药物无效),认为药物有效。
同理可验证,若取显著性水平 α = 0.01 \alpha = 0.01 α=0.01,拒绝域 W = { X ˉ ≥ 0.465 } W = \{\bar X \ge 0.465\} W={Xˉ≥0.465}, x ˉ = 0.522 > 0.465 \bar x = 0.522 > 0.465 xˉ=0.522>0.465,依然在拒绝域内,因此拒绝原假设。
P _ P\_ P_值:当原假设 H 0 H_0 H0成立时,检验统计量取比观察到的结果更为极端的数值的概率,即最小显著性水平。
P _ = P { X ˉ ≥ x ˉ = 0.522 ∣ μ = 0 } = 1 − Φ ( 0.522 0.6 9 ) = 0.0045 < α = 0.05 \begin{aligned} P\_ & = P\{\bar X \geq \bar x = 0.522 \mid \mu = 0\} \\ & = 1- \Phi(\frac{0.522}{0.6 \sqrt{9}}) = 0.0045 \\ & < \alpha = 0.05 \end{aligned} P_=P{Xˉ≥xˉ=0.522∣μ=0}=1−Φ(0.690.522)=0.0045<α=0.05
通过比较 P 值 P_值 P值与显著性水平,得出结论:概率这么小的事件发生了,因此拒绝原假设。
P _ P\_ P_值与显著水平 α \alpha α的关系: