相关性分析 Pearson 相关系数 和 Spearman 秩相关系数

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。本文主要介绍比较常用的 Pearson相关系数、Spearman秩相关系数。这两个相关性系数反应的都是两个变量之间变化趋势的方向以及程度,取值范围为 -1 到 +1, 0 表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

Person Correlation Coefficient (皮尔森相关系数)

1. 定义:皮尔森相关系数也称皮尔森积矩相关系数,是一种线性相关系数,用来反映两个变量 X 和 Y 的线性相关程度。

其中 表示变量 X 和 Y 的标准差, 表示变量 X 和 Y 的 协方差。

其中 、 是 和 的平均值。

最后整理可得:

2. 数据要求:Pearson相关系数可用于衡量变量之间的线性相关程度,但是对数据也有一定的要求

    1. 两个变量之间是线性关系,都是连续数据。
    1. 数据符合正态分布。
    1. 两个变量之间相互独立。

3. 缺点:皮尔森相关性系数受异常值的影响比较大

Spearman Correlation Coefficient(斯皮尔曼相关系数)

上面我们介绍了 Pearson 相关系数的局限性,为了摆脱这些局限性,我们将介绍 Spearman 相关系数。它比 Pearson 相关系数 的应用范围更广一些。

1.定义: 斯皮尔曼相关系数是秩相关系数的一种。通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解

它是一种无参数(与分布无关)的检验方法,用于度量变量之间联系的强弱。在没有重复数据的情况下,如果一个变量是另外一个变量的严格单调函数,则Spearman Correlation Coefficient(斯皮尔曼相关系数)就是+1或-1,称变量完全Spearman秩相关。无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序 如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。

其中 和 分别是观测值 i 的取值的等级, 和 分别是变量 x 和变量 y 的平均等级,N 是观测值的总数量, 表示二列成对变量的等级差数。

2. 数据要求:

    1. 相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。
    1. 斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究.
    1. 因为一个变量的相同的取值必须有相同的秩次,所以在计算中采用的秩次是排序后所在位置的平均值。只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有线性关系时才是完全相关的。

Spearman 和 Pearson 相关系数在算法上完全相同. 只是 Pearson 相关系数是用原来的数值计算积差相关系数, 而 Spearman 是用原来数值的秩次计算积差相关系数。

你可能感兴趣的:(相关性分析 Pearson 相关系数 和 Spearman 秩相关系数)