假设检验(t检验)

假设检验(t检验)

 假设检验的目的是通过构造检验统计量来判断原假设是否正确,常用的原假例如( μ 1 > μ 2 , μ 1 = μ 2 \mu_1>\mu_2,\mu_1=\mu_2 μ1>μ2,μ1=μ2),和原假设对应的为备择假设( μ 1 ≤ μ 2 , μ 1 ≠ μ 2 \mu_1\leq \mu_2,\mu_1\neq \mu_2 μ1μ2,μ1=μ2)。通常而言,原假设为保守的一方,备择假设为激进的一方1,也就是题设中给出的、需要去验证的是备择假设,我们通过证明原假设的过于“不可能”, 从而来证明备择假设的正确性。

原假设与备择假设

假设检验的核心思路就是构建统计量,通过证明该统计量符合原假设的可能性微乎其微来支持备择假设2举例而言,假设工厂要求生成产品的质量不小于100g,现从某批次中随机抽取了10个,需要判断这批产品是否符合要求,假定产品的质量符合均值为100,方差为4的正态分布。

 在这样一个问题,我们希望得到的结果是产品的质量大于100g,因此原假设 H 0 H_0 H0为:产品的质量小于均值100,备择假设 H 1 H_1 H1为:产品的质量大于等于均值100。假设检验的原理要求我们证明 H 0 H_0 H0是不太可能发生的,为此我们可以构建检验统计量 T = n ( X ˉ − μ ) σ T=\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} T=σn (Xˉμ),其中 X ˉ = 1 n ∑ i n x i \bar{X}=\frac{1}{n}\sum^n_{i}x_i Xˉ=n1inxi μ \mu μ为总体的均值,从而在样本属于总体的情况下有 T ∼ N ( 0 , 1 ) T\sim N(0,1) TN(0,1)(实际上我们基于的假设是产品的质量等于均值100,这一点还没想好怎么去解释)。
 统计量构造完成后,我们计算出此次样本的观测值 t = 10 ( 1 10 ∑ i = 1 10 x i − 100 ) 2 t=\frac{\sqrt{10}(\frac{1}{10}\sum_{i=1}^{10}x_i-100)}{2} t=210 (101i=110xi100),这个观测值 t t t反映除了原假设的离谱程度。倘若计算出的 t t t远大于0,对应的 p p p P ( t ) = 0.001 P(t)=0.001 P(t)=0.001,那就说明在以0.001的概率出现的样本均值减去总体均值大于 t t t的事件都已发生,原假设自然是不合理的,从而支持备择假设。而为了衡量说多小概率的事件发生,我们才能认为原假设是不合理的,存在显著性水平参数 α \alpha α,它表明了当观测时间发生对应的小概率程度小于 α \alpha α时,我们拒绝原假设,支持备择假设。
 以1中为例,在原假设为真的情况下,我们观测到了一个出现概率为0.0062的“不可能事件”,那么我们只能拒绝原假设。

t检验

 t检验3实际上就是假设检验的一种特殊情况,如果我们明确知道原始数据的分布是正态分布且知道均值和方差,那么直接构造标准正态分布检验统计量即可。但许多情况下虽然我们可以假定总体为正态分布,我们不知道其方差,因此使用其他方式来消去方差参数,构建t分布检验统计量。
 t分布的构造定义为分子是标准正态分布,分母是卡方分布4除以其自由度开方,以此来消去未知的方差参数。标准正态分布自不必多说,卡方分布定义为多个正态分布样本的平方和 ∑ i = 1 K x i 2 , x i ∼ N ( 0 , 1 ) \sum_{i=1}^K x_i^2,x_i\sim N(0,1) i=1Kxi2,xiN(0,1),其中 K K K为自由度。通过正态分布我们可以构建卡方分布, 由于正态分布的样本方差为 s 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 s^2=\frac{1}{n-1}\sum^n_{i=1}(x_i-\bar{X})^2 s2=n11i=1n(xiXˉ)2,因此 ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2}\sim \chi^2(n-1) σ2(n1)s2χ2(n1)。从而在总体为正态分布的情况下,我们可以构造如下t分布:
n ( X ˉ − μ ) σ ( n − 1 ) s 2 σ 2 n − 1 = n ( X ˉ − μ ) s ∼ t ( n − 1 ) \frac{\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}}{\sqrt{\frac{\frac{(n-1)s^2}{\sigma^2}}{n-1}}}=\frac{\sqrt{n}(\bar{X}-\mu)}{s}\sim t(n-1) n1σ2(n1)s2 σn (Xˉμ)=sn (Xˉμ)t(n1)
可以发现巧妙的消去了未知的 σ \sigma σ参数。

参考


  1. 假设检验 ↩︎ ↩︎

  2. 假设检验及例题 ↩︎

  3. t检验 ↩︎

  4. 卡方分布 ↩︎

你可能感兴趣的:(概率论,算法,机器学习)