相关性检验

分类

  • 组内(同类)相关intraclass
  • 组间相关interclass
    • Pearson相关
    • 等级相关
      1. Spearman's ρ  特例:point-biserial correlation
      2. Kendall's τ
      3. Goodman and Kruskal's γ
      4. Somers' D

类别

检验方法

简述

取值

适用数据类型

说明

线性相关

 Pearson correlation

试图用一条直线最好地拟合两组数据,相关系数则表示了数据点到这条直线的距离,即数据点多大程度上fit这个模型

0:不相关

>0:正相关

<0:负相关

相关性越强,值越接近±1

1. 定距尺度或定比尺度

2. 数据呈近似正态分布

3. 数据为线性关系

3. outliers数量很少或完全没有。*Outliers对结果影响很大,若不能删除这些点,考虑使用Spearman's Rank-Order或Kendall's Tau Correlation

4. 两组数据是homoscedasticity

相关系数的值与直线的斜率没有关系,只是表示点相对直线的离散程度。

无法给出cause-and-effect 关系

等级相关

Spearman's Rank-Order

是Pearson correlation的非参数版,适用范围更广。相关系数表示了两组排好序的数据是否包含了单调关系的成分,及其强弱和方向。

同Pearson correlation

1. 定序、定距或定比尺度

2. 数据呈单调关系

 

当Pearson correlation的假定条件不满足时,可用该方法。

point-biserial correlation

是Pearson correlation的特殊情况:一个为连续变量,一个为二分类变量

同Pearson correlation

1. 一个为连续变量,一个为二分类变量

2. 没有outlier

3. 所属每一类的连续变量都近似正态分布(可用shapiro-wilk检验)

4. 所属每一类的连续变量都有相等的方差(可用Levene’s检验)

 

Kendall's rank correlation

是Pearson correlation非参数版的替代,也是Spearman's Rank-Order的替代。用来衡量两个定序尺度的数据的相关性强弱和方向。

0:不相关

>0:趋于一致的等级相关性

<0:趋于相反的的等级相关性

相关性越强,值越接近±1

1. 两个变量为定序尺度

2. Kendall's rank correlation是衡量变量间的单调关系。若变量存在单调关系,则该系数才具有意义

与Spearman's Rank-Order相比,该系数仅受观测量rank是否相等影响,rank间的距离大小并不会影响。


变量尺度说明

定类尺度:只能测度事物之间的类别差,其他差别无法得知。如按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类。

定序尺度:不仅可以测度类别差,还可以测度次序差。不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算。人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。

定距尺度:可以进行加、减运算,不能进行乘、除运算。如30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。

定比尺度:不仅可以进行加减运算,还可以进行乘除运算。如绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。



你可能感兴趣的:(统计)