相关性分析

知识点普及

  • 相关系数:相关系数是变量间关联程度的最基本测度之一(判定相关性标准)
  • 相关性分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法
  • 基本特征:
    • 方向
      正相关: 两个变量变化方向相同
      负相关: 两个变量变化方向相反
    • 量级
      低度相关: 0 <= |r| < 0.3
      中度相关: 0.3 <= |r| < 0.8
      高度相关: 0.8 <= |r| <= 1
  • 计算公式
    相关性分析_第1张图片
    相关系数计算公式

样例代码

#!/usr/bin/env python
# coding=utf-8

import numpy 

X =  [
    12.5,33.4,56,3,13.22,34.4,
    10.3,23.3,35,6,22.1,44.3
]

Y = [
    23.1,44.6,77.5,33,89,89,
    58.9,8.08,55.7,78,1,22
]
 
# 均值
XMean = numpy.mean(X)
YMean = numpy.mean(Y)

#标准差
XSD = numpy.std(X)
YSD = numpy.std(Y)

# Z分数计算
ZX = (X-XMean)/(XSD)
ZY = (Y-YMean)/(YSD)

#相关系数计算
r = numpy.sum(ZX*ZY)/(len(X))
print (r)

#numpy自带相关系数计算方法
print (numpy.corrcoef(X,Y))

#pandas自带相关系数计算方法
import pandas as pd 
data =  pd.DataFrame({
    'X':X,
    'Y':Y
})

print (data.corr())

相关性分析的缺点"安斯库姆四重奏"

安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。


我是阿羽,一枚正在学习的搬砖小工,希望大家多多指教!

你可能感兴趣的:(相关性分析)