t检验详细讲解

t检验

t检验主要是用来做总体均值检验,在讲t检验前,我们先看一下t分布的概念以及特点。

t分布也称学生氏分布,定义是:设随机变量X~N(0,1),

,且X与Y独立,则

,这个分布就是t分布,记作t(n),n为自由度。下图是自由度分别是1,10,100的t分布,可以看到t分布的密度函数是一偶函数。

t分布具有以下特点:

1. 当n>=2时,t分布的数学期望E(t)=0。

2. 当n>=3时,t分布的方差D(t)= n/(n-2)。

3. 当n>=30时,t分布于标准正太分布就非常接近。

t检验详细讲解_第1张图片

接下来我们讲t统计量,其实除了t统计量之外,我们主要还有z统计量,

统计量,z统计量和t统计量常常用于均值和比例的检验,因此要讲t统计量必须也得讲z统计量。

主要用于方差的检验,后面的章节会讲到。z和t的主要区别就是看总体标准差σ是否已知,接下来我们就对比讲解z统计量和t统计量。

z统计量假设条件:

1. 样本量大。

2. 总体为正太分布,样本统计量服从正太分布。或总体为非正太分布,样本统计量渐进服从正太分布。

3. 总体标准差σ已知。

z统计量公式:

t统计量假设条件:

1. 样本量较小。

2. 总体标准差σ未知。

t统计量公式:

与正太分布相比,t分布更为扁平,在相同概率条件下,t分布的临界点向两边更为扩展,这意味着推断的精度下降,这是总体标准差σ未知要付出的代价,拿样本标准差作为总体标准差确实要付出代价,因为样本标准差一定比总体标准差要大。t分布的极限是z分布,当样本量n>30的条件下,t分布与z分布就会非常接近。

判断应该使用z统计量还是t统计量,可以参考下面的图:

t检验详细讲解_第2张图片

我们在讲实际案例前,先看一下假设检验,什么是假设检验呢,根据统计学的定义,先提出一个假设,然后利用样本信息去检验这个假设是否成立。 便有了原假设H0和备择假设H1,原假设通常假设条件成立,备择假设通常是条件不成立,也就是拒绝原假设。那接下来要考虑的就是应该如何判断是应该接受原假设还是拒绝原假设从而接受备择假设呢?那就要找到一种统计方法,可以通过统计来检验,举个例子,如果一个人杀了人,我们建立原假设H0=杀人,H1≠杀人, 通过各种证据,能证明这个人确实杀人的概率为0.01,如果以5%的置信区间来做检验,明显杀人的概率很低,已经低于5%,很明显拒绝原假设H0 ,从而从统计学方面拒绝了此人杀了人。如下图所示,如果统计量落到了a=0.05以内,便是落到了拒绝域,从而拒绝原假设。图中横轴一般代表的就是t-value(几倍的σ),纵轴一般代表的是p-value(概率)。

t检验详细讲解_第3张图片

接下来我们举个实际的例子,某钢厂制造出钢板厚度为10cm,今想了解钢厂生产的钢板是否良好,随机抽取20块钢板作为样本,测得平均厚度为10.3cm,标准差为0.3cm,试以0.05的显著性水平检验钢厂的钢板性能良好的假设。是否良好的假设条件就是:样本均值是否等于总体均值,如果等于总体均值,就说明性能良好。

由于总体σ未知,且样本量较小,采用t统计量。

已知:总体μ=10,样本X均值=10.3, 样本标准差s=0.3,n=20,a=0.05

H0:μ=10

H1:μ≠10

当a=0.05,自由度n-1=19,查表得ta/2(19)=2.093, 因为t>ta/2,样本统计量落入拒绝域,故拒绝原假设H0,接受备择假设H1,说明该钢厂的钢板性能不好。

t检验详细讲解_第4张图片

测试代码:

from scipy import stats

import numpy as np

np.random.seed(7654567)

#均值10.3,标准差0.3,样本20rvs = stats.norm.rvs(loc=10.3, scale=0.3, size=(20,1))

#检验均值10与10.3的差异是否显著print(stats.ttest_1samp(rvs, 10))

你可能感兴趣的:(t检验,t分布,概率论,算法)