以 t 分布(未知)为基础的一类比较均数的假设检验方法,t 分布的发现使得小样本统计推断成为可能。
推断样本所属总体的均数是否已知值有差异。
例 某研究人员在东北某县抽取36名儿童,得到前囟门闭合月龄的均值()和标准差(),要研究该县儿童前囟门的闭合月龄是否大于一般儿童(一般儿童总体的均值已知)?
检验的假设:: : (双侧)
分子:样本均数与的差距
分母:样本均数的标准误
:用标准误来度量样本均数与的差距,没有量纲
理论:成立时,统计量服从自由度为 的分布,根据这一知识来计算相应的值 。
统计推断: 事先规定一个“小”的概率(检验水准),
若值小于,拒绝零假设;
若值不小于,则不拒绝零假设。
配对设计资料其实是一种特殊的单样本资料,配对设计资料的检验,实际上就是检验配对资料差值的总体均值是否为0。
配对设计(paired design)是一种特殊的设计方式,能够很好地控制非实验因素对结果的影响,有自身配对和异体配对之分。
(1)某组同质被试对象接受两种不同的处理。例如,抽取一个年级的同学作为被测试对象,分别取得他们的身高和体重数据,试问他们的平均身高和体重是否存在显著差异?
(2)某组同质被试对象接受处理前后是否存在差异。例如,某公司推广了一种新的促销方式,实施前后分别统计了员工的业务量,得到数据,试问这种促销方式是否有效?
同源配对也就是同质的被测试对象分别接受两组不同的处理。例如,为了验证某种记忆方法对改善儿童对词汇的记忆是否有效,先随机抽取40名学生,再随机分为两组。一组使用该训练方法,一组不使用,3个月后对这两组学生进行词汇测验,得到数据。试问该训练方法是否对提高词汇记忆量有效?
在配对的t检验中,强调被测试对象一定要同质,其目的就是为了消除额外变量的影响,更能反映自变量和因变量之间的关系。配对样本t检验的过程,是对两个同质的样本分别接受两种不同的处理或一个个体先后接受不同的处理来判断不同的处理是否有差别。这种检验的目的在于根据样本数据对样本来自的配对总体的均值是否有显著差异进行判断的。
配对设计资料的分析着眼于每一对观察值之差,这些差值构成一组资料,用检验推断“差值的总体均数是否为 0”。
例 为研究孪生兄弟中, 先出生者的出生体重与后出生者的出生体重是否相同,共收集了15对孪生兄弟的出生体重:
检验的假设:: ,即差值的总体均数为 0
: (双侧) ,即差值的总体均数不为 0
其中:等于两个配对样本的总体均值之差
确定检验水准:
分子:样本均差值的均值与0的差距
分母:样本均差值的均值的标准误
:对子数
理论:成立时,统计量服从自由度为 的分布,根据这一知识来计算相应的值 。
统计推断: 事先规定一个“小”的概率(检验水准),
若值小于,拒绝零假设;
若值不小于,则不拒绝零假设。
故此题中,查 t 界值表,0.02< <0.05,在=0.05 的水准上拒绝,可认为孪生兄弟的出生体重与出生顺序有关,先出生者的体重大于后出生者。
python实现检验均值差检验-《统计推断——假设检验——python代码检验两均值差(置换法)》
中心思想:当两个总体分布分别为和,时,两样本均值差的抽样分布仍为正态分布。
从同一对象群,随机抽取两组,各接受不同处理。
或者,从两个对象群,各随机抽取一组,接受相同处理。
两独立样本的资料
检验两个总体均数是否相等
①两个总体均服从正态分布,方差相等(方差齐性)
例 某医师要观察两种药物对原发性高血压的疗效,将诊断为Ⅱ期高血压的 20 名患者随机分为两组 (两组患者基线时血 压之间的差别没有统计学意义);
一组用卡托普利治疗,另一组用尼莫地平治疗; 3 个月后观察舒张压下降的幅度(mmHg)
结果如下:
试比较两药平均降压效果(总体的均值)有无差异。
经检验, 两组舒张压下降值均服从正态分布、方差齐性。,
建立假设,确定检验水准
: 或
: 或
计算统计量
其中是利用两样本联合估计的方差(两组方差的加权平均),表示第一组的方差,表示第二组的方差。
已知,当成立时,统计量服从自由度的分布。
确定 P 值,作出推断
按照的水准,(双侧检验);,,不拒绝 ,差异无统计学意义;
结论:尚不能认为这两种药物降压效果有差别。
注意:“尚不能”的含义,很可能现状样本量不够,样本量增大之后得到的t值又不一样,则得到的值也不一样,则样本可能存在差别。
②两样本所属总体方差不等——>> 近似 t 检验(Satterthwaite近似法)
例 为比较特殊饮食与药物治疗改善血清胆固醇 (mmol/L)的效果,将 24 名志愿者随机分成两组,每组 12 人,甲组为特殊饮食组,乙组为药物治疗组。
受试者试验前后各测量一次血清胆固醇,差值见下表
请比较两种降血清胆固醇措施的效果是否相同?
方差齐性检验(统计量遵循F分布)——后面章节有详细的齐性检验步骤
建立检验假设,确定检验水准
: :
计算统计量
确定值,作出推断
查F分布的双侧临界值表,, <0.05, 在 =0.05的水准上拒绝,两个样本方差的差异具有统计学意义(即样本方差的差异反映了总体方差的差异)。
结论:可以认为两个总体方差不相等。
两组血清胆固醇差值均服从正态分布条件,经以上方差齐性检验;此资料视为总体方差不相等。
,,
: :
当成立时,的分布比较复杂,需要对自由度进行校正,校正之后的分布近似为分布。
据此近似的得到相应的值。
建立检验假设,确定检验水准
: :
计算统计量
确定 P 值,作出推断
查界值表,得(双侧检验),,,时,,值为犯假阳性错误的概率。
故在水平上拒绝。
两组样本降血清胆固醇效果的差异具有统计学意义;
结论:可以认为两种降血清胆固醇措施的效果不同。
③两独立样本资料的方差齐性检验
某口腔医院选择所在城市 4050 岁慢性牙周炎患者 36 例,测得吸烟组(18 人)菌斑指数(PLI)均值为 84.71、标准差为 8.14;非吸烟组(18 人)菌斑指数的均值为 82.20、标准差为 6.18,试检验两总体方差是否相等?
, , ?
建立检验假设,确定检验水准
: :
计算统计量
,,(有两个自由度:分子自由度和分母自由度),表示较大方差。
确定值,作出推断
查F分布的双侧临界值表,, >0.05, 在 =0.05的水准上不能拒绝,两个样本方差的差异不具有统计学意义。
结论:不能认为两个总体方差不相等。