假设检验之相关性分析

相关分析重点研究两个变量之间线性关系的强度和方向,两变量均为结果变量,不分主次。根据样本类型差异及研究目的不同,本文主要介绍偏相关分析、相关分析和多变量相关分析。

一、偏相关分析

偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响控制,只分析另外两个变量之间相关程度,控制变量个数为一时,偏相关系数称为一阶偏相关系数;控制变量个数为二时,偏相关系数称为二阶相关系数;控制变量个数为零时,偏相关系数称为零阶偏相关系数,也就是相关系数。

问:什么指两个变量同时与第三个变量相关?

可以这样理解,有IQ、数学成绩、语文成绩三个变量,想要分析数学成绩与语文成绩之间的相关性,但是由于数学成绩和语文成绩的最直接影响原因是IQ,即两个变量同时与IQ相关,但又想知道数学成绩与语文成绩之间单纯的相关性,就使用偏相关分析。

举例:想要分析考试所用时间与考试成绩的相关程度,但是这两个因素都与第三个因素平时学习效果相关,即平时学习效果好,则考试所用时间就少,考试成绩就好;平时学习效果不好,那么考试所用时间长,并且成绩不好。如果想单纯看这两个因素的相关性,就需要控制变量平时学习效果(试想一下,如果不进行控制变量的话,很可能会得出考试时间越短考试成绩越高的结论,但是如果没有平时学习效果好的前提下,得出这样的结论也是很荒谬的)。

注意:偏相关分析的两变量必须服从正态分布,即为连续性变量。

二、相关分析

无控制变量的分析即为相关分析,根据样本类型不同,分为Pearson、Spearman和Kendall检验。

1、Pearson相关系数

1)条件:服从正态分布的两连续性变量;

2)系数:

从公式可以看出,X与Y同向变化时,r为正;X与Y反向变化时,r为负。

3)说明:Pearson相关系数对异常值特别敏感,异常值甚至会导致符号的改变。

假设检验之相关性分析_第1张图片

可以很明显的看出,无异常值时,x与y成负相关,但是异常值导致,是相关系数为正,也可以从计算公式理解异常值的导致计算结果的不同。

2、Spearman系数

1)条件:适用于不满足正态分布、总体分布未知的连续性变量;

2)系数:

Spearman系数不使用绝对数值,使用秩进行计算,d是每对观察值秩之差,n是观察对数。

3、Kendall等级相关系数

1)条件:是对两个有序变量或两个秩变量之间相关程度的度量;

2)Kendall‘ U系数:

    Kendall‘ W系数:

假设检验之相关性分析_第2张图片

3)本节讨论Kendall‘ W系数

* Kendall’sW 检验条件:

a、观察者不少于3人,判定结果是有序分类变量;

b、不同观测者判定的对象相同,本研究中,5位放射科医生诊断的是同一组研究对象;

c、观察者之间相互独立。

* Kendall’sW 检验目的:

检验3个及以上角度对同一事物判断是否一致

* 举例:

分析5位放射科医生对疾病严重程度诊断的一致性。现搜集50位研究对象的MRI检查结果,要求放射科医生针对每份MRI检查给予Grade I(最轻)到GradeV(最重)五个等级的临床诊断,Grade I、GradeII、GradeIII、Grade

IV和Grade V赋值分别为1、2、3、4和5,部分数据如下图。

假设检验之相关性分析_第3张图片

三、多变量相关分析

总结:根据样本类型选择相关性检验方法

假设检验之相关性分析_第4张图片

你可能感兴趣的:(假设检验之相关性分析)