统计学三大相关系数之Pearson相关系数、Spearman相关系数

一、相关系数:

  • 相关系数:考察两个变量之间的相关程度。相关系数的取值范围是-1到1,绝对值越接近1,则说明两个变量之间的相关程度越大;绝对值越接近0,则说明两个变量之间的相关程度越小,具体见下图:统计学三大相关系数之Pearson相关系数、Spearman相关系数_第1张图片

二、Pearson相关系数:

  • 1. 先给出公式推导:

    • ①首先由Pearson相关系数的定义可知,

       

    • ②这里,分子cov表示协方差,分母表示标准差(以两个变量为例):

     

    统计学三大相关系数之Pearson相关系数、Spearman相关系数_第2张图片统计学三大相关系数之Pearson相关系数、Spearman相关系数_第3张图片这里分母位置为什么是n-1而不是n呢?是为了使我们得以用更小的样本更好的逼近总体,即达到“无偏估计”的效果,详见:blog.csdn.net/hearthougan…

     

    • ③代入即可消得Pearson相关系数计算公式为:统计学三大相关系数之Pearson相关系数、Spearman相关系数_第4张图片
  • 2. Pearson相关系数可用于衡量变量之间的线性相关程度,但有一定的使用条件:

    统计学三大相关系数之Pearson相关系数、Spearman相关系数_第5张图片

     

三、Spearman相关系数

  • 1. 总的来说,Spearman相关系数的计算方法和Pearson相关系数是一样的,只是计算用特征的等级取代特征的真实值。例如,给定三个值:30,50,10,它们的等级就分别是2,3,1,则计算时用2,3,1这几个等级代替30,50,10这些本身的值

  • 2. 照例,先给出公式(两种):

    • 公式一:

      统计学三大相关系数之Pearson相关系数、Spearman相关系数_第6张图片

       

    • 公式二:

      统计学三大相关系数之Pearson相关系数、Spearman相关系数_第7张图片

       

  • 3. 适用范围:

    • ①相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感
    • ②斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。
//SELECT mean(age) AS '均值', variance(age) AS '方差', stddev(age) AS '标准差', corr(age,yearsmarried) AS '两个指标的相关系数', skewness(age) AS 'skewness偏度', kurtosis(age) AS 'kurtosis峰度'

你可能感兴趣的:(推荐算法)