两总体 t检验与差分估计量的比较

作者:Ernnnn

b站:Ernnnn

公众号:统计分析分析


两总体 t 检验与差分估计量的比较

文章目录

  • *两总体 t 检验与差分估计量的比较*
  • 1. t检验
  • 2.差分估计量
  • 3. Stata 验证

1. t检验

两总体的t检验,可以分为独立样本和配对样本的两大分类。

  • 独立样本

    • 方差已知

    • 方差未知但相等

    • 方差未知且不相等

  • 配对样本

比如在小样本下,如果方差未知但相等:
t = X ‾ 1 − X ‾ 2 S e t = \frac{\overline X_1 - \overline X_2}{\sqrt{Se}} t=Se X1X2

S e = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) S 2 2 n 1 + n 2 − 2 ( 1 n 1 + 1 n 2 ) Se = \frac{(n_1 - 1)S^2_1+(n_2-1)S^2_2}{n_1+n_2-2} (\frac{1}{n_1} + \frac{1}{n_2}) Se=n1+n22(n11)S12+(n21)S22(n11+n21)
如果是大样本(使用样本方差估计方差)或已知方差时,直接使用z统计量:
z = X ‾ 1 − X ‾ 2 σ 1 2 n 1 + σ 2 2 n 2 z = \frac{\overline X_1 - \overline X_2}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} z=n1σ12+n2σ22 X1X2
这些不同统计量之间相同和不同的地方在哪呢?所有这些t检验的上面部分都是一样的 X ‾ 1 − X ‾ 2 \overline X_1 - \overline X_2 X1X2,主要区别在于标准误不一样!

2.差分估计量

对于y而言,仅存在一个虚拟变量下有:
y i = { α + ϵ i ,   x i = 0 α + β + ϵ i ,   x i = 1 y_i= \begin{cases} \alpha + \epsilon_i ,& \ & x_i = 0 \\ \alpha + \beta + \epsilon_i,& \ & x_i=1\\ \end{cases} yi={α+ϵi,α+β+ϵi,  xi=0xi=1
又根据回归方程必中点可以知道, y ‾ 0 = α ^ \overline y_0=\hat{\alpha} y0=α^ y ‾ 1 = α ^ + β ^ \overline y_1 = \hat{\alpha} + \hat{\beta} y1=α^+β^ 那么显然我们的 β ^ = y ‾ 0 − y ‾ 1 \hat{\beta} = \overline y_0 - \overline y_1 β^=y0y1 ,这个是啥,很显然就是我们的两总体的均值之差。

那么究竟差分估计量的标准误应该和哪个t检验的是一样的呢?请翻上去思考一下。
没错,大样本下的两总体均值之差的t统计量。
因此系数的 β \beta β显著性和t检验得到p值是一样的。

结论:根据t检验的原理,当我们使用样本小于36的差分估计量是不准确的,得到的结论是偏显著的(大家可以思考一下为什么?)。同时注意的是,这里的样本是指单个分组的样本量,因此作为回归至少应该70+的样本量才能使得统计量近似服从正态分布,其结论才是准确的。

3. Stata 验证

import excel "ttt.xlsx",clear firstrow
list
     +----------------+
     | id   y   group |
     |----------------|
  1. |  1   1       0 |
  2. |  2   2       0 |
  3. |  3   3       0 |
  4. |  4   3       0 |
  5. |  5   4       0 |
     |----------------|
  6. |  6   1       1 |
  7. |  7   1       1 |
  8. |  8   2       1 |
  9. |  9   1       1 |
     +----------------+
     


ttest y ,by(group)

结果如下:
Two-sample t test with equal variances
------------------------------------------------------------------------------
   Group |     Obs        Mean    Std. Err.   Std. Dev.   [95% Conf. Interval]
---------+--------------------------------------------------------------------
       0 |       5         2.6     .509902    1.140175    1.184285    4.015715
       1 |       4        1.25         .25          .5    .4543884    2.045612
---------+--------------------------------------------------------------------
combined |       9           2     .372678    1.118034    1.140603    2.859397
---------+--------------------------------------------------------------------
    diff |                1.35    .6184658               -.1124393    2.812439
------------------------------------------------------------------------------
    diff = mean(0) - mean(1)                                      t =   2.1828
Ho: diff = 0                                     degrees of freedom =        7

    Ha: diff < 0                 Ha: diff != 0                 Ha: diff > 0
 Pr(T < t) = 0.9673         Pr(|T| > |t|) = 0.0654          Pr(T > t) = 0.0327

而同样的数据使用回归可以得到同样的结果

reg y group
      Source |       SS           df       MS      Number of obs   =         9
-------------+----------------------------------   F(1, 7)         =      4.76
       Model |        4.05         1        4.05   Prob > F        =    0.0654
    Residual |        5.95         7         .85   R-squared       =    0.4050
-------------+----------------------------------   Adj R-squared   =    0.3200
       Total |          10         8        1.25   Root MSE        =    .92195

------------------------------------------------------------------------------
           y |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       group |      -1.35   .6184658    -2.18   0.065    -2.812439    .1124393
       _cons |        2.6   .4123106     6.31   0.000      1.62504     3.57496
------------------------------------------------------------------------------

事实上除了符号不一样,其他是基本一样的。

你可能感兴趣的:(模型综述,统计学)