统计推断——假设检验——t 检验(总体的标准差未知)

统计推断——假设检验——t 检验(总体的标准差未知)_第1张图片

统计推断——假设检验——t 检验(总体的标准差未知)_第2张图片

一、t检验的概念

t 分布(\large \sigma未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。 

二、t  检验的应用条件

  • 随机样本;
  • 来自正态分布总体(小样本时);
  • 两独立样本比较时,要求两总体方差相等(方差齐性),单样本不需要方差齐性。

三、t检验的分类

1、单样本资料的t 检验

推断样本所属总体的均数是否已知值有差异。 

某研究人员在东北某县抽取36名儿童,得到前囟门闭合月龄的均值(\large \overline{X})和标准差(\large S),要研究该县儿童前囟门的闭合月龄是否大于一般儿童(一般儿童总体的均值\large \mu _{0}已知)?

检验的假设:\large H_{0}\large \mu =\mu _{0}              \large H_{1}: \large \mu \neq \mu _{0} (双侧)

统计量:\large t=\frac{\overline{X}-\mu _{0}}{S/\sqrt{n}}

             分子:样本均数与\large \mu _{0}的差距

             分母:样本均数的标准误

                  \large t:用标准误来度量样本均数与\large \mu _{0}的差距,没有量纲 

理论依据:\large H_{0} 成立时,统计量\large t=\frac{\overline{X}-\mu _{0}}{S/\sqrt{n}}\sim t(\nu )\large \nu =n-1

理论:\large H_{0}成立时,统计量\large t服从自由度为\large \nu =n-1\large t分布,根据这一知识来计算相应的\large P值 。

统计推断:  事先规定一个“小”的概率\large \alpha(检验水准),

                 若\large P值小于\large \alpha,拒绝零假设;

                 若\large P值不小于\large \alpha,则不拒绝零假设。            

2、配对设计资料(特殊的单样本检验)的t 检验

配对设计资料其实是一种特殊的单样本资料,配对设计资料的\large t检验,实际上就是检验配对资料差值的总体均值是否为0。

配对设计(paired design)是一种特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和异体配对之分。

自身配对:

(1)某组同质被试对象接受两种不同的处理。例如,抽取一个年级的同学作为被测试对象,分别取得他们的身高和体重数据,试问他们的平均身高和体重是否存在显著差异?

(2)某组同质被试对象接受处理前后是否存在差异。例如,某公司推广了一种新的促销方式,实施前后分别统计了员工的业务量,得到数据,试问这种促销方式是否有效?

异体配对(同源配对)

 同源配对也就是同质的被测试对象分别接受两组不同的处理。例如,为了验证某种记忆方法对改善儿童对词汇的记忆是否有效,先随机抽取40名学生,再随机分为两组。一组使用该训练方法,一组不使用,3个月后对这两组学生进行词汇测验,得到数据。试问该训练方法是否对提高词汇记忆量有效?

在配对的t检验中,强调被测试对象一定要同质,其目的就是为了消除额外变量的影响,更能反映自变量和因变量之间的关系。配对样本t检验的过程,是对两个同质的样本分别接受两种不同的处理或一个个体先后接受不同的处理来判断不同的处理是否有差别。这种检验的目的在于根据样本数据对样本来自的配对总体的均值是否有显著差异进行判断的。

配对设计资料的分析着眼于每一对观察值之差,这些差值构成一组资料,用\large t检验推断“差值的总体均数是否为 0”。

为研究孪生兄弟中, 先出生者的出生体重与后出生者的出生体重是否相同,共收集了15对孪生兄弟的出生体重:

统计推断——假设检验——t 检验(总体的标准差未知)_第3张图片

检验的假设:\large H_{0}\large \mu_{d} =0 ,即差值的总体均数为 0

                     \large H_{1}: \large \mu_{d} \neq 0 (双侧) ,即差值的总体均数不为 0       

                     其中:\large \mu_{d}等于两个配对样本的总体均值之差

确定检验水准:\large \alpha =0.05

统计量:\large t=\frac{\overline{d}-0}{S_{d}/\sqrt{n}},此题中\large n=15,\large \overline{d}=0.06\large S_{d}=0.10,计算出\large t=2.33

             分子:样本均差值\large d的均值与0的差距

             分母:样本均差值\large d的均值的标准误

                  \large n:对子数

理论依据:\large H_{0} 成立时,统计量\large t=\frac{\overline{d}-0}{S_{d}/\sqrt{n}}\sim t(\nu )\large \nu =n-1

理论:\large H_{0}成立时,统计量\large t服从自由度为\large \nu =n-1\large t分布,根据这一知识来计算相应的\large P值 。

统计推断:  事先规定一个“小”的概率\large \alpha(检验水准),

                 若\large P值小于\large \alpha,拒绝零假设;

                 若\large P值不小于\large \alpha,则不拒绝零假设。 

故此题中,查 t 界值表,0.02< \large P<0.05,在\large \alpha=0.05 的水准上拒绝\large H_{0},可认为孪生兄弟的出生体重与出生顺序有关,先出生者的体重大于后出生者。     

3、两独立样本资料的t 检验

python实现检验均值差检验-《统计推断——假设检验——python代码检验两均值差(置换法)》

中心思想:当两个总体分布分别为N(\mu _{1},\sigma _{1}^{2})和,N(\mu _{2},\sigma _{2}^{2})时,两样本均值差的抽样分布仍为正态分布。

3.1、抽样

从同一对象群,随机抽取两组,各接受不同处理。

或者,从两个对象群,各随机抽取一组,接受相同处理。

3.2、数据

两独立样本的资料

3.3、目的

检验两个总体均数是否相等

3.4、假定

①两个总体均服从正态分布,方差相等(方差齐性 

例   某医师要观察两种药物对原发性高血压的疗效,将诊断为Ⅱ期高血压的 20 名患者随机分为两组 (两组患者基线时血 压之间的差别没有统计学意义); 

一组用卡托普利治疗,另一组用尼莫地平治疗;  3 个月后观察舒张压下降的幅度(mmHg)

结果如下:

试比较两药平均降压效果(总体的均值)有无差异。

经检验,  两组舒张压下降值均服从正态分布、方差齐性。\large X_{1}\sim N(\mu _{1},\sigma ^{2})\large X_{2}\sim N(\mu _{2},\sigma ^{2})

建立假设,确定检验水准

\large H_{0}\large \mu _{1}=\mu _{2} 或\large \mu _{1}-\mu _{2}=0

\large H_{1}\large \mu _{1}\neq \mu _{2} 或\large \mu _{1}-\mu _{2}\neq 0

\large \alpha =0.05

计算统计量

\large \overline{X}_{1}\sim N(\mu _{1},\frac{\sigma ^{2}}{n_{1}})\large \overline{X}_{2}\sim N(\mu _{2},\frac{\sigma ^{2}}{n_{2}})\large \overline{X}_{1}-\overline{X}_{2}\sim N(\mu _{1}-\mu _{2},\frac{\sigma ^{2}}{n_{1}}+\frac{\sigma ^{2}}{n_{2}})

检验统计量为:\large t=\frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{S_{c}^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})}},其中\large S_{c}^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})表示两组标准误平方之和。

其中\large S_{c}^{2}是利用两样本联合估计的方差\large S_{c}^{2}=\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}(两组方差的加权平均),S_{1}^{2}表示第一组的方差,S_{2}^{2}表示第二组的方差。

已知,当\large H_{0}成立时,统计量服从自由度\large \nu =n_{1}+n_{2}-2\large t分布。

\large \begin{align}S_{c}^{2} & =\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2} \\ &=\frac{(10-1)\times3.58^{2}+(10-1)\times 4.27^{2}}{10+10-2} \\ &=15.52 \end{align}

\large t=\frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{S_{c}^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})}}=\frac{10.20-9.40}{\sqrt{15.52\times (\frac{1}{10}+\frac{1}{10})}}=0.454

确定 P 值,作出推断

按照\large \alpha =0.05的水准,\large t_{0.05/2,18}=2.101(双侧检验);\large t=0.454< t_{0.05/2,18}\large P> 0.5,不拒绝\large H_{0} ,差异无统计学意义;

结论:尚不能认为这两种药物降压效果有差别。

注意:“尚不能”的含义,很可能现状样本量不够,样本量增大之后得到的t值又不一样,则得到的\large P值也不一样,则样本可能存在差别。

②两样本所属总体方差不等——>> 近似 t 检验(Satterthwaite近似法)

为比较特殊饮食与药物治疗改善血清胆固醇 (mmol/L)的效果,将 24 名志愿者随机分成两组,每组 12 人,甲组为特殊饮食组,乙组为药物治疗组。 

受试者试验前后各测量一次血清胆固醇,差值见下表 

统计推断——假设检验——t 检验(总体的标准差未知)_第4张图片

请比较两种降血清胆固醇措施的效果是否相同?

方差齐性检验(统计量遵循F分布)——后面章节有详细的齐性检验步骤

建立检验假设,确定检验水准

\large H_{0}\large \sigma _{1}^{2}=\sigma _{2}^{2}                       \large H_{1}\large \sigma _{1}^{2}\neq \sigma _{2}^{2}                      \large \alpha =0.05

计算统计量

\large F=\frac{S_{1}^{2}}{S_{2}^{2}}=\frac{0.5110^{2}}{0.1107^{2}}=21.308\large \nu_{1} =n_{1}-1=12-1=11\large \nu_{2} =n_{2}-1=12-1=11

确定\large P值,作出推断

查F分布的双侧临界值表,\large F_{0 . 05 / 2 ( 11 , 11)}=3.47, \large P <0.05, 在\large \alpha =0.05的水准上拒绝\large H_{0},两个样本方差的差异具有统计学意义(即样本方差的差异反映了总体方差的差异)。

结论:可以认为两个总体方差不相等。

两组血清胆固醇差值均服从正态分布条件,经以上方差齐性检验;此资料视为总体方差不相等。

\large N(\mu _{1},\sigma _{1}^{2})\large N(\mu _{2},\sigma _{2}^{2})\large \sigma _{1}^{2}\neq \sigma _{2}^{2}

\large \overline{X}_{1}\sim N(\mu _{1},\frac{\sigma_{1}^{2}}{n_{1}})\large \overline{X}_{2}\sim N(\mu _{2},\frac{\sigma_{2}^{2}}{n_{2}})

\large \overline{X}_{1}-\overline{X}_{2}\sim N(\mu _{1}-\mu _{2},\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}})

\large H_{0}\large \mu _{1}=\mu _{2}                       \large H_{1}\large \mu _{1}\neq \mu _{2}

统计量 \large {t}'=\frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}

\large H_{0}成立时,\large {t}'=\frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}的分布比较复杂,需要对自由度进行校正,校正之后的\large {t}'分布近似为\large t分布。

\dpi{100} \large \nu =\frac{(\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}})^{2}}{(\frac{S_{1}^{2}}{n_{1}})^{2}/(n_{1}-1)+(\frac{S_{2}^{2}}{n_{2}})^{2}/(n_{2}-1)},分子是两组样本均数标准误平方之和的平方。

据此近似的得到相应的\large P值。

建立检验假设,确定检验水准

\large H_{0}\large \mu _{1}=\mu _{2}                       \large H_{1}\large \mu _{1}\neq \mu _{2}                     \large \alpha =0.05

计算统计量

\large {t}'=\frac{\overline{X}_{1}-\overline{X}_{2}}{\sqrt{\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}}}}=\frac{0.5592-0.1467}{\sqrt{\frac{0.5110^{2}}{12}+\frac{0.1107^{2}}{12}}}=2.733

\large \begin{align} \nu &=\frac{(\frac{S_{1}^{2}}{n_{1}}+\frac{S_{2}^{2}}{n_{2}})^{2}}{(\frac{S_{1}^{2}}{n_{1}})^{2}/n_{1}-1+(\frac{S_{2}^{2}}{n_{2}})^{2}/n_{2}-1} \\&= \frac{(\frac{0.5110^{2}}{12}+\frac{0.1107^{2}}{12})^{2}}{(\frac{0.5110^{2}}{12})^{2}/12-1+(\frac{0.1107^{2}}{12})^{2}/12-1} \\&=12.03 \approx 12 \end{align}

确定 P 值,作出推断

\large t界值表,得\large t_{0.05/2,12}=2.179(双侧检验),\large t_{0.01/2,12}=3.055\large t_{0.02/2,12}=2.681\large t=2.733时,\large 0.02> P> 0.01\large P值为犯假阳性错误的概率。

故在\large \alpha =0.05水平上拒绝\large H_{0}

两组样本降血清胆固醇效果的差异具有统计学意义; 

结论:可以认为两种降血清胆固醇措施的效果不同。

③两独立样本资料的方差齐性检验 

某口腔医院选择所在城市 40­50 岁慢性牙周炎患者 36 例,测得吸烟组(18 人)菌斑指数(PLI)均值为 84.71、标准差为 8.14;非吸烟组(18 人)菌斑指数的均值为 82.20、标准差为  6.18,试检验两总体方差是否相等? 

\large N(\mu _{1},\sigma _{1}^{2}),     \large N(\mu _{2},\sigma _{2}^{2}),     \large \sigma _{1}^{2}\neq \sigma _{2}^{2}?

建立检验假设,确定检验水准

\large H_{0}\large \sigma _{1}^{2}=\sigma _{2}^{2}                       \large H_{1}\large \sigma _{1}^{2}\neq \sigma _{2}^{2}                      \large \alpha =0.05

计算统计量

\large F=\frac{S_{1}^{2}}{S_{2}^{2}}\large \nu_{1} =n_{1}-1\large \nu_{2} =n_{2}-1(有两个自由度:分子自由度\large \nu_{1}和分母自由度\large \nu_{2}),\large S_{1}^{2}表示较大方差。

\large F=\frac{S_{1}^{2}}{S_{2}^{2}}=\frac{8.14^{2}}{6.18^{2}}=1.7349\large \nu_{1} =n_{1}-1=18-1=17\large \nu_{2} =n_{2}-1=18-1=17

统计推断——假设检验——t 检验(总体的标准差未知)_第5张图片

确定\large P值,作出推断

查F分布的双侧临界值表,\large F_{0 . 05 / 2 ( 17 , 17 )}=2 . 67, \large P >0.05, 在\large \alpha =0.05的水准上不能拒绝\large H_{0},两个样本方差的差异不具有统计学意义。

结论:不能认为两个总体方差不相等。

 

 

 

 

你可能感兴趣的:(假设检验,统计学)