统计学知识回顾(三)

假设检验

  • 定义
  • p-value
  • 单侧假设
  • Z-统计量 vs T-统计量
  • 第一类错误
  • 随机变量之差的方差
  • 样本均值之差的分布
  • 均值之差的假设检验

定义

  • 在日常生活中我们常常需要做出决策,而我们在做决策时一定要预估事件可能发生的结果及概率。假设检验就是一种判断某个事件发生的可能性时使用的科学方法,它常常是先提出一个假设,即原假设;与之对应的是备择假设。假设检验的作用就是判断原假设成立的概率有多大

p-value

  • 在假设检验当中,假设检验的结果通常不是百分之百成立的。我们推断得出的假设往往只在一定概率下成立。用于衡量这一概率的指标就是 p-value,也称作置信水平。它的内涵是衡量一个推断的可信程度

单侧假设

这个概念很容易混淆,此处通过一个案例以表格的形式来展示:

假设 单边检验 双边检验
原假设 药物无效 药物无效
备择假设 药物有负面作用 药物有效

在学习之前,我曾经以为原假设与备择假设之间一定是对立的关系,学习之后我发现其实两者不一定是对立关系,但一定是互斥关系。参考茆诗松的概率论与数理统计一书中假设检验的定义:
统计学知识回顾(三)_第1张图片
理清原假设与备择假设的关系之后,我们可以发现单侧检验与双侧检验之间的区别。以图示为例,单侧检验的备择假设应该是命题1或命题2,而双侧检验的备择假设应该是命题3

Z-统计量 vs T-统计量

  • 当样本数量足够大 ( z > 30 ) (z>30) (z>30)时,样本抽样均值分布服从正态分布,此时可使用Z-分数表
  • 当样本数量很小 ( z < 30 ) (z<30) (z<30)时,样本抽样均值分布服从 t t t分布,此时应使用 t t t分布表

第一类错误

  • 即拒绝了正确的原假设

随机变量之差的方差

先列出几个前提条件:

  • Z = X + Y Z = X + Y Z=X+Y E ( Z ) = E ( X + Y ) = E ( X ) + E ( Y ) E(Z) = E(X+Y) = E(X)+E(Y) E(Z)=E(X+Y)=E(X)+E(Y)
  • A = X − Y A = X - Y A=XY E ( A ) = E ( X − Y ) = E ( X ) − E ( Y ) E(A) = E(X - Y) = E(X)-E(Y) E(A)=E(XY)=E(X)E(Y)

等式成立的证明可以用期望的基本计算公式证得。
X 与 Y X与Y XY 之间相互独立,则 σ Z 2 = σ X 2 + σ Y 2 \sigma_{Z}^{2} = \sigma_{X}^{2} + \sigma_{Y}^{2} σZ2=σX2+σY2,证明如下:

∵ σ X 2 = E ( X 2 ) − E ( X ) 2 , \because \sigma_{X}^{2} = E(X^{2}) - E(X)^{2}, σX2=E(X2)E(X)2, σ Y 2 = E ( Y 2 ) − E ( Y ) 2 , \sigma_{Y}^{2} = E(Y^{2}) - E(Y)^{2}, σY2=E(Y2)E(Y)2,

C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) , Cov(X,Y) = E(XY) - E(X)E(Y), Cov(X,Y)=E(XY)E(X)E(Y),

∴ σ Z 2 = E [ ( X + Y ) 2 ] − [ E ( X + Y ) ] 2 \therefore \sigma_{Z}^{2} = E[(X+Y)^{2}] - [E(X+Y)]^{2} σZ2=E[(X+Y)2][E(X+Y)]2

= E ( X 2 + Y 2 + 2 X Y ) − [ E ( X ) + E ( Y ) ] 2 = E(X^{2} + Y^{2} + 2XY) - [E(X) + E(Y)]^{2} =E(X2+Y2+2XY)[E(X)+E(Y)]2

= E ( X 2 + Y 2 + 2 X Y ) − E ( X ) 2 − E ( Y ) 2 − 2 E ( X ) E ( Y ) = E(X^{2} + Y^{2} + 2XY) - E(X)^{2} -E(Y)^{2} - 2E(X)E(Y) =E(X2+Y2+2XY)E(X)2E(Y)22E(X)E(Y)

= E ( X 2 ) + E ( Y 2 ) − E ( X ) 2 − E ( Y ) 2 + 2 [ E ( X Y ) − E ( X ) E ( Y ) ] = E(X^{2}) + E(Y^{2}) - E(X)^{2} -E(Y)^{2} + 2[E(XY)-E(X)E(Y)] =E(X2)+E(Y2)E(X)2E(Y)2+2[E(XY)E(X)E(Y)]

= σ X 2 + σ Y 2 + 2 C o v ( X , Y ) = \sigma_{X}^{2} + \sigma_{Y}^{2} + 2Cov(X,Y) =σX2+σY2+2Cov(X,Y)

其中 C o v ( X , Y ) Cov(X,Y) Cov(X,Y)是随机变量 X X X Y Y Y的协方差,若 X X X Y Y Y相互独立,则协方差为0,得证。当 Z = X − Y Z = X-Y Z=XY时同理,也可得出相同结论

样本均值之差的分布

由上面得出的结论可以推断出:

μ X ‾ − Y ‾ = μ X ‾ − μ Y ‾ \mu _{ \overline{X} - \overline{Y}} = \mu_{\overline{X}} - \mu_{\overline{Y}} μXY=μXμY

σ X ‾ − Y ‾ 2 = σ X ‾ 2 + σ Y ‾ 2 \sigma_{\overline{X} - \overline{Y}}^{2} = \sigma_{\overline{X}}^{2} + \sigma_{\overline{Y}}^{2} σXY2=σX2+σY2

均值之差的假设检验

流程同单变量均值的假设检验,仅在构造统计量时产生差异

你可能感兴趣的:(统计学知识回顾(三))