浅谈相关系数

Pearson

适用条件:连续,数值相关,变量之间满足正态分布,变量间存在线性关系且等方差(等方差即数据点在回归直线上下均匀分布)

计算公式:


rxy,变量x和y的Pearson相关系数;
n,观测对象的数量;
xi,x的第i个观测值;
yi,y的第i个观测值。

R codes:

cor_pearson <- cor(mtcars, method = 'pearson')
cor_pearson

Spearman秩相关

适用条件:连续变量,秩相关,不要求变量的正态性和等方差假设,对极端值不敏感,数据必须至少是有序的

计算公式:


ρ,Spearman秩相关系数;
di,对应变量的秩之差,即两个变量分别排序后成对的变量位置(等级)差;
n,观测对象的数量。

对两列数据进行排序,并表明序号(秩序),di即为序号(秩序)之差
R codes:

cor_spearman <- cor(mtcars, method = 'spearman')
cor_spearman

Kendall相关

适用条件:有序分类,分类变量

计算公式:


如果xiyi且xj>yj,则该关系对是一致的(concordant),反正则不一致(discordant)
如果一致对的数量比不一致对的数量大得多,则变量是正相关的;如果一致对的数目比不一致对的数目少得多;则变量是负相关的;如果一致对的数目与不一致对的数目大致相同,则变量之间的关系很弱

Tetrachoric相关(四分相关)

适用条件:二元变量间的相关,变量服从正态分布,变量连续

计算公式:




描述A与B变量(行变量与列变量)是否相关

Biserial相关

用于测量一组连续变量和一组二元变量的线性关系,二元变量是二分序数类型,具有潜在的连续性

计算公式:


Y0,x=0时变量对的平均值;
Y1,x=1时变量对的平均值;
p,x=1时变量对的比例;
q,x=0时变量对的比例;
σy,总体标准偏差。

这是一组二元变量,与x,y取值都有观(比方说横截面数据类型)

参考:
https://mp.weixin.qq.com/s/JxCRK7BPys1GTb0xd1ZUZg
https://wiki.mbalib.com/wiki/%E5%9B%9B%E5%88%86%E7%9B%B8%E5%85%B3

你可能感兴趣的:(浅谈相关系数)