相关性分析常识

相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

相关分析分类

  • 按方向来分,正相关,负相关和零相关
  • 按形态来分,直线相关和曲线相关
  • 按程度来分,完全相关,强相关和弱相关
相关性分析常识_第1张图片

相关系数

相关系数是用以反映变量之间相关关系密切程度的统计指标。

  • 皮尔森相关系数,也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。

  • 相关性分析常识_第2张图片
    皮尔森相关系数

    相关系数用r表示,其中n为样本量,r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。

  • 斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系。

  • 相关性分析常识_第3张图片
    斯皮尔曼等级相关

    n为等级个数,d为二列成对变量的等级差数

  • 肯德尔(Kendall) 相关系数

  • 相关性分析常识_第4张图片
    kendall秩相关系数

    其中n是项目的数量,和P的总和,对所有的项目,项目的数量排名后,给予这两个项目的排名。

适用条件

  • Pearson相关系数:两变量必须是服从正态分布的连续变量
  • Spearman相关系数:不服从正态分布的资料、原始资料等级资料、总体分布类型未知的资料
  • Kendall相关系数: 变量均为有序分类的情况
正态分布

正态分布指的是变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。

当样本量大到一定程度时,都可以认为数据是服从正态分布的。

你可能感兴趣的:(相关性分析常识)