python自学篇十六[pandas——数据分析 (三):数学统计方法+相关系数+协方差]

文章目录

  • 概括:Numpy+Scipy+pandas+matplotlib
    • 五.pandas:常用的数学统计方法
    • 六.pandas:相关系数与协方差
        • 1.相关系数(Correlation coefficient)
        • 2.协方差(Covariance, COV)

概括:Numpy+Scipy+pandas+matplotlib

在这里插入图片描述

五.pandas:常用的数学统计方法

python自学篇十六[pandas——数据分析 (三):数学统计方法+相关系数+协方差]_第1张图片
python自学篇十六[pandas——数据分析 (三):数学统计方法+相关系数+协方差]_第2张图片

六.pandas:相关系数与协方差

代码:

import numpy as np
from pandas import Series, DataFrame
import pandas as pd
df=DataFrame({
   "GDP": [12,23,34,45,56],
    "air_temperature": [23,25,26,27,30],
   "year":['2005','2003','2004','2005','2006']
})
df

结果:

	GDP	air_temperature	year
0	12	23	2005
1	23	25	2003
2	34	26	2004
3	45	27	2005
4	56	30	2006

1.相关系数(Correlation coefficient)

  • 反映两个样本/样本之间的相互关系以及之间的相关程度。在COV的基础上进行了无量纲化操作,也就是进行了标准化操作
  • 就是用X、Y的协方差除以X的标准差和Y的标准差。所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
  • 1.也可以反映两个变量变化时是同向还是反向,如果同向变化为正,反向变化为负
  • 2.由于它是标准化后的协方差,因此更重的特性是,它消除了两个变量变化幅度的影响,而只是单纯反应两个变量单位变化的相似程度。
  • 注意:
    相关系数不像协方差一样可以在+\infty 到-\infty 间变化,它只能在+1到-1之间变化
    当相关系数为1的时候两者相识度最大,同向正相关
    当相关系数为0的时候两者没有任何相似度,两个变量无关
    当相关系数为-1的时候两者变化的反向相似度最大,完全反向负相关
    在这里插入图片描述
    代码:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd
df=DataFrame({
   "GDP": [12,23,34,45,56],
    "air_temperature": [23,25,26,27,30],
   "year":['2005','2003','2004','2005','2006']
})
print(u"相关系数:\n",df.corr())

结果:

相关系数:
                       GDP  air_temperature
GDP              1.000000         0.977356
air_temperature  0.977356         1.000000

代码:

import numpy as np
from pandas import Series, DataFrame
import pandas as pd
df=DataFrame({
   "GDP": [12,23,34,45,56],
    "air_temperature": [23,25,26,27,30],
   "year":['2005','2003','2004','2005','2006']
})
print(u"GDP相关系数:",df['GDP'].corr(df['air_temperature']))

结果:

GDP相关系数: 0.9773555548504418

2.协方差(Covariance, COV)

  • 反映两个样本/变量之间的相互关系以及之间的相关程度
  • 如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值
  • 如果协方差为正,说明X,Y同向变化,协方差越大说明同向程度越高;如果协方差为负,说明X,Y反向运动,协方差越小说明反向程度越高

python自学篇十六[pandas——数据分析 (三):数学统计方法+相关系数+协方差]_第3张图片
代码:

import numpy as np
from pandas import Series, DataFrame
import pandas as pd
df=DataFrame({
   "GDP": [12,23,34,45,56],
    "air_temperature": [23,25,26,27,30],
   "year":['2005','2003','2004','2005','2006']
})
print(u"协方差:\n",df.cov())

结果:

协方差:
                    GDP  air_temperature
GDP              302.5             44.0
air_temperature   44.0              6.7

代码:

import numpy as np
from pandas import Series, DataFrame
import pandas as pd
df=DataFrame({
   "GDP": [12,23,34,45,56],
    "air_temperature": [23,25,26,27,30],
   "year":['2005','2003','2004','2005','2006']
})
print(u"GDP协方差:",df['GDP'].cov(df['air_temperature']))

结果:

GDP协方差: 44.0

你可能感兴趣的:(python基础)