重新思考假设检验

推论统计,首先想到的是假设检验,, 等等,学习的时候都会做,然而仔细想想,真明白吗?回想我自己的经历,可能经过了3-4轮的思考,终于从应用深入到了到底那是什么的程度。现在,请你来与我一同分享我对假设检验的理解。

Q1: 假设检验是什么?

假设检验是一种反证法。

统计,分为描述统计与推论统计。顾名思义,描述统计如同画画似的,将一个事务的特征用数字描绘出来,每一幅数码相片背后是一组组的数字,将这组数字经过总结(我认为总结便是降低维度), 变成容易记忆的数字,这些数字能在人的脑海里刻画出一个可识别的形象。那便是描述统计。

推论统计,根据已有现状去推断整体,寻找规律。回归像是求同;聚类,像是求异;假设检验判别是同是异,是同,是异。

"幸福的家庭大都相似,不幸的家庭却各有不同"---托尔斯泰

用True or False 来求证因何而异实在是太困难了,不能证明,便去证伪。不同,便是异,Genius!假设检验在做“不同”的证明,不能证明“不同”,则不能拒绝,那么便是了。当这里会有中间地带,称为Type I, Type II Error,HORN,拒绝了不该拒绝的,或没有拒绝改拒绝的。这已是细枝末节,不影响整体概念。

Q2: 假设检验的内容是什么?

两组数。不是单个数值的比较,而是两类数值的比较。用假设检验的方法来证明这两类数是否存在差异。

这里指的数组是什么概念呢?比如人的身高,是一组数,并且这组数有一定特征,大致分布在0.5米至2.3米之间,身高在1.6~1.8米的人占大多数。如果,我们想知道人的身高与猩猩的身高是否有差异,将两组数进行比较,这两组如果分布形态上一致,说明没有差异,不一致,说明有差异。

这里我们充分利用描述统计学的内容,将两个总体的分布进行比较,平均数,中位值,离散程度,偏度,峰度等。好在统计可以将概率函数描绘出来,根据身高的值得知在这个身高下有多少比例的人或猩猩。几个数字一碰便得知了两组数据是否一致。

若已经充分了解了这两组数,不用假设检验,直接比较好了。然而,实际上没有可能去统计所有的人和猩猩的身高。退一步,抽样来推断总体,由总体去比较。这是假设检验的核心内容。

Q3: 抽样与总体

抽样这东西犹如盲人摸象,天知道摸到什么,能描绘出什么?拿抽样的去比较,若样本与总体并非相似,那这个比较也就没有意义了。好在中心极限定理帮了大忙,抽样次数越多,抽样的平均值逼近总体平均值,且总体平均值呈现正态分布,其离散程度逐渐缩小,最后就是一根直线了。

n = [10,100,1000]
p = 0.5

fig, AX = plt.subplots(ncols=3, nrows=1, figsize=(15,5), dpi=288)
for i, ax in enumerate(AX):
    se = np.sqrt(p*(1-p)/n[i])
    distribution = stats.norm(loc = 0, scale=se)
    x = np.linspace(-1,1,100)
    y = distribution.pdf(x)
    ax.plot(x,y)
    ax.set_title('n={}'.format(n[I]))

image.png

三幅图,分别为抽样10次,100次,1000次,平均数的分布。平均数已知了,那么只要平均数不等,两组数则不等,轻松证伪。

Q4: 置信区间与显著水平

样本的平均值所反映出总体的平均值不是一个确定的值,样本不等于总体,依然这个平均值是一个范围,有其分布,抽样多了,这个分布呈现正态分布。

import scipy.stats as stats

norm = stats.norm(0,1)
x = np.linspace(-4,4,200)
y = norm.pdf(x)
image.png

正态分布是一个概率曲线(pdf),线上的点由(x,y)坐标组成,知道x就知道y。曲线下至x轴所有的面积是累积概率(cdf),左侧曲线开始的地方cdf,累积概率为0,右侧结束的地方累积概率为1,显著水平若设5%,置信区间为[2.5%, 97.5%],当然置信区间可以移动,看用途了。

显著水平明显是个人设,用于确定置信区间上限、下限,以确定累积概率对应在x轴上的值,大于、小于都拒绝,说明两组数平均值相同的概率小于显著水平(概率,累积概率)。

Q5: 自由度

再回到总体与样本。抽样次数越多,抽样的平均值离总体平均值越近,方差越小。自由度,其实就是样本数量。样本数量少,样本与总体的离差大,更难证伪。找一个人和一个猩猩就能证明整体身高差异了?显然不行。除非差异巨大,比如大象和蚂蚁,一头大象,一只蚂蚁足以。

image.png

只要有差异,即使很小,若样本足够大,也是能发现的。总体上均值有差异,便是有差异,怎么都有差异。

总结

假设检验,在干什么?

  1. 比较总体的均值是否有差异;
  2. 不知道均值所以要从样本去推断总体的均值;
  3. 中心极限定理告诉我们大多数情况下,抽样次数多了,均值呈现正态分布;
  4. 用推断的均值分布来度量是否所比较的总体均值相等;
  5. 样本数量少的情况下,离散程度上需要对其惩罚,不能简单套用标准正态分布(z检验与t检验的差别)
  6. 不是所有的均值都呈现正态分布,比如方差的均值。

你可能感兴趣的:(重新思考假设检验)