皮尔森、斯皮尔曼,肯德尔相关系数的理解

pandas中的corr()方法可使用如下方法,检测特征间的关系

皮尔森相关系数(线性相关)

皮尔森、斯皮尔曼,肯德尔相关系数的理解_第1张图片

计算公式:两个连续变量(X,Y)的pearson相关性系数(Px,y)等于(X, Y)的协方差cov(X,Y)除以各自标准差的乘积(σX,σY)。

系数取值在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

def pearson(vector1, vector2):
    n = len(vector1)
    #simple sums
    sum1 = sum(float(vector1[i]) for i in range(n))
    sum2 = sum(float(vector2[i]) for i in range(n))
    #sum up the squares
    sum1_pow = sum([pow(v, 2.0) for v in vector1])
    sum2_pow = sum([pow(v, 2.0) for v in vector2])
    #sum up the products
    p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
    #分子num,分母den
    num = p_sum - (sum1*sum2/n)
    den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
    if den == 0:
        return 0.0
    return num/den

皮尔森相关系数对数据是有比较高的要求的:

第一, 实验数据通常假设是成对的来自于正态分布的总体。因为在求皮尔森相关性系数以后,通常还会用 t 检验等方法来进行皮尔森相关性系数检验,而 t 检验是基于数据呈正态分布的假设的。

第二, 实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。

例如心跳与跑步的例子,如果心脏不好,跑到一定速度后承受不了,突发心脏病,就会测到一个偏离正常值的心跳(过快或者过慢,甚至为0),如果加入这个值相关性分析,会干扰计算结果。

斯皮尔曼相关系数

衡量两个变量依赖性的非参数指标。常用希腊字母 ρ 表示,用单调方程评价两个统计变量相关性。

如果数据中没有重复值, 并且当两个变量完全单调相关时,斯皮尔曼相关系数则为+1或−1。

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据。

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。

依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。

斯皮尔曼等级相关对数据条件的要求:

        两个变量的观测值是成对的等级评定资料,

        或由连续变量观测资料转化得到的等级资料,

不论两个变量总体分布形态、样本容量的大小如何,都可用斯皮尔曼等级相关来进行研究。

反映两组变量之间联系的密切程度,取值在-1到+1之间,是建立在等级的基础上计算的。

等级相关系数和通常的相关系数一样,与样本的容量有关,尤其在样本容量较小的情况下,其变异程度较大,等级相关系数的显著性检验与普通的相关系数的显著性检验相同。

斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数。“秩”,可以理解成就是一种顺序或者排序,

根据原始数据的排序位置进行求解,这种表征形式就没有了求皮尔森相关性系数时那些限制。

计算公式:皮尔森、斯皮尔曼,肯德尔相关系数的理解_第2张图片

皮尔森、斯皮尔曼,肯德尔相关系数的理解_第3张图片

无论X和Y 两个变量的值差多少,只需计算每个值所处的排列位置的差值,就可求出相关性系数。

变量值没有变化时,也不会出现像皮尔森系数那样分母为 0 而无法计算的情况。

如果出现异常值,由于秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以影响也非常小。由于没有那些数据条件要求,适用的范围就广多了。

肯德尔相关系数

经常用希腊字母τ(tau)表示,肯德尔相关系数用来测量两个随机变量相关性的统计值。

肯德尔检验是一个无参数假设检验,使用计算而得的相关系数去检验两个随机变量的统计依赖性。

肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;

当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的。

皮尔森、斯皮尔曼,肯德尔相关系数的理解_第4张图片

皮尔森、斯皮尔曼,肯德尔相关系数的理解_第5张图片皮尔森、斯皮尔曼,肯德尔相关系数的理解_第6张图片

皮尔森、斯皮尔曼,肯德尔相关系数的理解_第7张图片

参考:

统计学三大相关系数之皮尔森(pearson)相关系数_ruthy-wei的博客-CSDN博客_皮尔森相关系数

CSDN

你可能感兴趣的:(机器学习,机器学习)