三大相关性检验的介绍和选择

https://blog.csdn.net/sinat_24143931/article/details/78798630

根据这篇文章的介绍可以知道:

1、person correlation coefficient(皮尔森相关性系数)

就是两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。

它要求数据是连续数据、正态分布且线性关系

2、spearman correlation coefficient(斯皮尔曼相关性系数)

根据秩来计算,没有皮尔森相关性系数对数据那么严格的限制条件,而且,即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小!这个我们可以多用

3、 kendall correlation coefficient(肯德尔相关性系数)

肯德尔相关性系数,又称肯德尔秩相关系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。
分类变量可以理解成有类别的变量,可以分为
无序的,比如性别(男、女)、血型(A、B、O、AB);
有序的,比如肥胖等级(重度肥胖,中度肥胖、轻度肥胖、不肥胖)。
通常需要求相关性系数的都是有序分类变量。

调用:

Pandas接口:

DataFrame.corr(method='pearson', min_periods=1)

method : {‘pearson’, ‘kendall’, ‘spearman’}

  • pearson : standard correlation coefficient
  • kendall : Kendall Tau correlation coefficient
  • spearman : Spearman rank correlation

min_periods : int, optional

Minimum number of observations required per pair of columns to have a valid result. Currently only available for pearson and spearman correlation

补充介绍:https://zhidao.baidu.com/question/942120591632351772.html

 

 

你可能感兴趣的:(机器学习笔记集)