Student's t-test

Student’s t-test

常作为检验一组来自正态分布总体的独立样本的期望值是否为一个实数,或者两组正态分布样本的期望值之差是否为某一个实数。可以用于检验两个样本集是否有显著的差异。

前提假设

大多数的 t − t e s t t-test ttest 统计量形式为 t = Z / s t=Z/s t=Z/s,其中 Z Z Z k k k 为已知数据的函数, k k k 为尺度参数,

t − t e s t t-test ttest 的前提假设为:

  • 样本满足正态分布,均值为 μ \mu μ,方差为 σ 2 n \frac{\sigma^{2}}{n} nσ2
  • s 2 s^{2} s2 满足置信度 n − 1 n-1 n1 的卡方分布 s 2 s^{2} s2 follows a x 2 x^2 x2 distribution with n − 1 n-1 n1 Degrees of freedom
  • Z Z Z s s s 相互独立

零假设 null hypothesis:一般是希望被证明为错误的假设,如“两者无关联” 或 “两者非独立” 或 “没有变化”

对立假设 Alternative hypothesis:一般是希望能证明为正确的假设,如“两者有关联” 或 “两者独立” 或 “有变化”

主要类别

One-sample t-test

可利用以下统计量 t t t 对一组来自正态分配独立样本 x i x_i xi 验证零假设总体期望值 μ μ μ μ 0 μ_0 μ0
t = x ‾ − μ 0 s / n t=\frac{\overline{x}-\mu_{0}}{s / \sqrt{n}} t=s/n xμ0
其中: i = 1 … n , x ‾ = ∑ i = 1 n x i n i=1 \ldots n, \overline{x}=\frac{\sum_{i=1}^{n} x_{i}}{n} i=1n,x=ni=1nxi 为样本均值, μ 0 μ_0 μ0 为数学期望, s = ∑ i = 1 n ( x i − x ‾ ) 2 n − 1 s=\sqrt{\frac{\sum_{i=1}^{n}\left(x_{i}-\overline{x}\right)^{2}}{n-1}} s=n1i=1n(xix)2 为样本标准差, n n n 为样本数量。

该统计量 t t t 在零假设 μ = μ 0 \mu=\mu_{0} μ=μ0 为真的条件下服从置信度为 n − 1 n-1 n1 的 Student’s t-distribution

Dependent t-test for paired samples

与单样本检验类似,不过检验对象为两组正态分布独立样本之差

两组独立正态分布样本 x 1 i x_{1i} x1i x 2 i x_{2i} x2i 之差为 d i = x 1 i − x 2 i d_{i} = x_{1i} - x_{2i} di=x1ix2i,可以利用以下统计量 t 检验 d i d_{i} di 的均值是否为 μ 0 \mu_{0} μ0
t = d ‾ − μ 0 s d / n t=\frac{\overline{d}-\mu_{0}}{s_{d} / \sqrt{n}} t=sd/n dμ0
其中: i = 1 … n , d ‾ = ∑ i = 1 n d i n i=1 \ldots n, \overline{d}=\frac{\sum_{i=1}^{n} d_{i}}{n} i=1n,d=ni=1ndi 为配对样本差值的平均数, s d = ∑ i = 1 n ( d i − d ‾ ) 2 n − 1 s_{d}=\sqrt{\frac{\sum_{i=1}^{n}\left(d_{i}-\overline{d}\right)^{2}}{n-1}} sd=n1i=1n(did)2 n n n 为样本数量,该统计量 t t t 在零假设 μ = μ 0 \mu=\mu_{0} μ=μ0 为真的条件下服从置信度为 n − 1 n-1 n1 的 Student’s t-distribution

Independent two-sample t-test

样本数相等,方差相等

若两组独立正态分布样本 x 1 i x_{1i} x1i x 2 i x_{2i} x2i 具有相同样本数 n n n,并且各自方差相等,则两组样本总体期望值差 μ 1 − μ 2 \mu_1 - \mu_2 μ1μ2 是否为 μ 0 \mu_0 μ0 可利用以下统计量 t t t 检验
t = x ‾ 1 − x ‾ 2 − μ 0 2 s p 2 / n t=\frac{\overline{x}_{1}-\overline{x}_{2}-\mu_{0}}{\sqrt{2 s_{p}^{2} / n}} t=2sp2/n x1x2μ0
其中: i = 1 … n , x ‾ 1 = ( ∑ i = 1 n x 1 i ) / n i=1 \ldots n, \overline{x}_{1}=\left(\sum_{i=1}^{n} x_{1 i}\right) / n i=1n,x1=(i=1nx1i)/n x ‾ 2 = ( ∑ i = 1 n x 2 i ) / n \overline{x}_{2}=\left(\sum_{i=1}^{n} x_{2 i}\right) / n x2=(i=1nx2i)/n 为两组样本各自的均值,

s p 2 = ( ∑ i = 1 n ( x 1 i − x ‾ 1 ) 2 + ∑ i = 1 n ( x 2 i − x ‾ 2 ) 2 ) / ( 2 n − 2 ) s_{p}^{2}=\left(\sum_{i=1}^{n}\left(x_{1 i}-\overline{x}_{1}\right)^{2}+\sum_{i=1}^{n}\left(x_{2 i}-\overline{x}_{2}\right)^{2}\right) /(2 n-2) sp2=(i=1n(x1ix1)2+i=1n(x2ix2)2)/(2n2) 两组样本的共同方差,该统计量 t t t 在零假设 μ 1 − μ 2 = μ 0 \mu_{1} - \mu_{2} = \mu_{0} μ1μ2=μ0 为真的条件下服从置信度为 2 n − 2 2n-2 2n2 的 Student’s t-distribution

样本数相等,方差不相等

若两组独立正态分布样本 x 1 i x_{1i} x1i x 2 i x_{2i} x2i 具有不同的样本数 n 1 n_1 n1 n 2 n_2 n2,并且各自方差相等,则两组样本总体期望值差 μ 1 − μ 2 \mu_1 - \mu_2 μ1μ2 是否为 μ 0 \mu_0 μ0 可利用以下统计量 t t t 检验
t = x ‾ 1 − x ‾ 2 − μ 0 s p 2 / n 1 + s p 2 / n 2 t=\frac{\overline{x}_{1}-\overline{x}_{2}-\mu_{0}}{\sqrt{s_{p}^{2} / n_{1}+s_{p}^{2} / n_{2}}} t=sp2/n1+sp2/n2 x1x2μ0
其中 i = 1 … n 1 , j = 1 … n 2 , x ‾ 1 = ( ∑ i = 1 n 1 x 1 i ) / n 1 , x ‾ 2 = ( ∑ j = 1 n 2 x 2 j ) / n 2 i=1 \ldots n_{1}, j=1 \ldots n_{2}, \overline{x}_{1}=\left(\sum_{i=1}^{n_1} x_{1 i}\right)/n_{1},\overline{x}_{2}=\left(\sum_{j=1}^{n_2} x_{2j}\right) / n_{2} i=1n1,j=1n2,x1=(i=1n1x1i)/n1,x2=(j=1n2x2j)/n2 为两组样本各自的平均数,

s p 2 = ( ∑ i = 1 n ( x 1 i − x ‾ 1 ) 2 + ∑ j = 1 n ( x 2 j − x ‾ 2 ) 2 ) / ( n 1 + n 2 − 2 ) s_{p}^{2}=\left(\sum_{i=1}^{n}\left(x_{1 i}-\overline{x}_{1}\right)^{2}+\sum_{j=1}^{n}\left(x_{2 j}-\overline{x}_{2}\right)^{2}\right) /\left(n_{1}+n_{2}-2\right) sp2=(i=1n(x1ix1)2+j=1n(x2jx2)2)/(n1+n22) 为两组样本共同的方差,该统计量 t t t 在零假设 μ 1 − μ 2 = μ 0 \mu_{1} - \mu_{2} = \mu_{0} μ1μ2=μ0 为真的条件下服从置信度为 n 1 + n 2 − 2 n_{1}+n_{2}-2 n1+n22 的 Student’s t-distribution

样本数和方差都不相等

若两组独立正态分布样本 x 1 i x_{1i} x1i x 2 i x_{2i} x2i 具有不同的样本数 n 1 n_1 n1 n 2 n_2 n2,并且各自方差不相等,则两组样本总体期望值差 μ 1 − μ 2 \mu_1 - \mu_2 μ1μ2 是否为 μ 0 \mu_0 μ0 可利用以下统计量 t t t 检验
t = x ‾ 1 − x ‾ 2 − μ 0 s 1 2 / n 1 + s 2 2 / n 2 t=\frac{\overline{x}_{1}-\overline{x}_{2}-\mu_{0}}{\sqrt{s_{1}^{2} / n_{1}+s_{2}^{2} / n_{2}}} t=s12/n1+s22/n2 x1x2μ0
其中 i = 1 … n 1 , j = 1 … n 2 , x ‾ 1 = ( ∑ i = 1 n 1 x 1 i ) / n 1 , x ‾ 2 = ( ∑ j = 1 n 2 x 2 j ) / n 2 i=1 \ldots n_{1}, j=1 \ldots n_{2}, \overline{x}_{1}=\left(\sum_{i=1}^{n_1} x_{1 i}\right)/n_{1},\overline{x}_{2}=\left(\sum_{j=1}^{n_2} x_{2j}\right) / n_{2} i=1n1,j=1n2,x1=(i=1n1x1i)/n1,x2=(j=1n2x2j)/n2 为两组样本各自的平均数,

s 1 2 = ( ∑ i = 1 n ( x 1 i − x ‾ 1 ) 2 ) / ( n 1 − 1 ) , s 2 2 = ( ∑ j = 1 n ( x 2 j − x ‾ 2 ) 2 ) / ( n 2 − 1 ) s_{1}^{2}=\left(\sum_{i=1}^{n}\left(x_{1 i}-\overline{x}_{1}\right)^{2}\right) /\left(n_{1}-1\right) , s_{2}^{2}=\left(\sum_{j=1}^{n}\left(x_{2 j}-\overline{x}_{2}\right)^{2}\right) /\left(n_{2}-1\right) s12=(i=1n(x1ix1)2)/(n11),s22=(j=1n(x2jx2)2)/(n21) 为两组样本各自的方差。

该统计量 t t t 在零假设 μ 1 − μ 2 = μ 0 \mu_{1} - \mu_{2} = \mu_{0} μ1μ2=μ0 为真的条件下服从置信度为 d f df df 的 Student’s t-distribution
d f = ( s 1 2 / n 1 + s 2 2 / n 2 ) 2 ( s 1 2 / n 1 ) 2 / ( n 1 − 1 ) + ( s 2 2 / n 2 ) 2 / ( n 2 − 1 ) d f=\frac{\left(s_{1}^{2} / n_{1}+s_{2}^{2} / n_{2}\right)^{2}}{\left(s_{1}^{2} / n_{1}\right)^{2} /\left(n_{1}-1\right)+\left(s_{2}^{2} / n_{2}\right)^{2} /\left(n_{2}-1\right)} df=(s12/n1)2/(n11)+(s22/n2)2/(n21)(s12/n1+s22/n2)2

你可能感兴趣的:(Student's t-test)