Z-test , T-test 的区别

Z-test

用途

  1. 比较整体均值是否达到某个数值
  2. 比较2个群体的均值

公式

image.png

特点

  1. 总体需要符合正态分布
  2. 对总体方差的要求
    a. 如果样本量大于 30, 可以用样本方差近似
    b. 如果样本量小于30, 则需要知道总体方差

注意

  1. 一些资料直接说 Z-test 要求 样本量大于30, 那并不准确,如果知道总体方差, 可以不要求样本量大于30. 只不过现实中很少有机会知道总体方差。

  2. 总体均值,一般就是要检验的那个“宣称的总体均值”, 比如 全体学生成绩超过600分, 600分就是均值。 一般后续要检验的, 就是这个宣称的 “均值600分”.

例子

  • 比较男女工程师的薪水差距
  • 比较两个产品线的良率

T-test

用途

  1. 比较整体均值是否达到某个数值
  2. 比较2个群体的均值

公式

image.png

特点

  1. 当既不知道总体方差, 样本也小于30的时候,可以用 T-test

Z-test 和 T-test 的差异

方差
从二者的公式中, 可以清楚的看出来, 其实他们的区别在于对总体方差的处理

  • Z-test :如果总体方差已知,直接用; 如果未知,当样本大于30,用样本方差替代
  • T-test : 不同场景有不同的计算方式,详见 [T-test 关于差异的信心]
    (https://www.jianshu.com/p/90ed3bd8f18e)

分布

  • Z-test : 服从 正态分布
  • T-test :服从自由度为 的Students 分布
  • 在样本量较小时,Z-test 要比 T-test 分布瘦高,也意味着Z-test 更加集中。
    下图是样本数量等于12时, 二者的比较
image.png

效果

  • 当样本数量小时, 由上图可知 Z-test 更加精确,如果条件允许, 最好用 Z-test。
  • 当样本数量大时, 二者几乎相同, 用那个都行。
    下图不同自由度下, 二者的比较(可以近似把自由度看成样本数量-1)。 可见当n=20时, 二者已经相差无几
image.png

什么时候用 Z-test ? T-test ?

image.png

参考文章

  • Difference between Z-test, F-test, and T-test

  • Statistics for Analytics and Data Science: Hypothesis Testing and Z-Test vs. T-Test

  • Z-Test

  • Hypothesis Test Assumptions

  • T-distribution: What it is and how to use it

你可能感兴趣的:(Z-test , T-test 的区别)