Spearman秩相关系数

Spearman秩相关系数是一种非参数的统计相关性测度,一般用 ρ 表示,它所衡量的是两个变量有多大程度可以用单调函数描绘。如果没有重复点,且两个变量单调相关时,Spearman相关系数为 +1 或者 1

Spearman相关系数适用于离散、连续以及次序变量。

定义和计算


Spearman相关系数定义为两个变量的秩统计量间的Pearson相关系数。比如有 n 组观测样本 Xi,Yi i=1,2,...,n ,我们对这组观测样本排秩,得到秩统计量 xi,yi ,那么 ρ 的计算公式就为:

ρ=16d2in(n21)

这里 di=xiyi ,表示两个秩的差。这里如果有变量相同,那么它的秩就是变量从小到大排序后位置的平均值。

解释


Spearman相关系数介于-1和1之间,相关系数的正负代表自变量 X 和因变量 Y 关系的方向。如果 Y 随着 X 的增大而增大时,Spearman相关系数就为正,反之相关系数为负。Spearman相关系数为0表示 X 增大或者减小时 Y 没有增大和减小的趋势。当任意两对数据 XiXj YiYj 同号,既Y对于X来说严格单调时,Spearman相关系数为 +1 或者 1 。下面是Spearman完全正相关的一个例子。

Spearman秩相关系数_第1张图片
一般我们说Spearman相关系数是非参数的包含两层含义:第一,Spearman相关系数和Pearson相关系数不同,它只依赖于函数间的单调关系,而Pearson相关系数依赖与变量间的线性关系。第二,我们可以在不知道 X Y 联合分布的情况下得到它精确的抽样分布。

Pearson相关系数和Spearman相关系数对比


Pearson相关系数要求数据为连续型数据,而且数据需要满足正态分布,它所衡量的是数据间的线性关系强弱。

Spearman对样本分布没有特殊的要求,而且可以用来衡量次序变量的相关程度,它所衡量的数据间的单调性强弱。

比如,下图中所画出的是 X X 的高阶多项式的相关程度,

Spearman秩相关系数_第2张图片

可以发现阶数为1时,两种相关系数均为1,随着阶数增加Pearson相关系数开始降低,也就是说 X X 的多项式间线性关系变弱,但由于函数始终保持单调,Spearman相关系数不变。

当数据椭圆分布,没有明显异常值点时,两种相关系数类似。

Spearman秩相关系数_第3张图片

Spearman相关系数对尾部异常值相对比较敏感。

Spearman秩相关系数_第4张图片

你可能感兴趣的:(统计学)