算法--偏差,方差,标准差,协方差,相关系数及相关理解

1 偏差与方差

  • 偏差(bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
  • 方差(variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
    算法--偏差,方差,标准差,协方差,相关系数及相关理解_第1张图片
  • 方差公式
    这里写图片描述
    Var(x)
    =E((x−E(x))2)
    =E(x2−2xE(x)+(E(x))2)
    =E(x2)−2E(x)E(x)+(E(x))2
    =E(x2)−2(E(x))2+(E(x))2
    =E(x2)−(E(x))2
    其实两个公式是等价的
  • 样本方差公式:
    这里写图片描述
    式中:这里写图片描述是样本的均值

  • 标准差(就是方差的平方根)
    标准差公式:
    这里写图片描述
    样本标准差公式:
    这里写图片描述
    为什么使用标准差?
    与方差相比,使用标准差来表示数据点的离散程度有3个好处:

    • 表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。
    • 表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。
    • 在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

2 协方差和相关系数

  • 1先贴一个链接 = =
    https://www.zhihu.com/question/20852004

  • 2 协方差covariance

    • 定义

    • 两个随机变量的协方差被定义为:
      这里写图片描述
      Cov(x,y)=E( (x−E(x)) (y−E(y)) )
      Cov(x,y)=E( (x−E(x)) (y−E(y)) )
      因此方差是一种特殊的协方差。当x=y时:Cov(x,y)=Var(x)=Var(y)。

    • 直观理解
      协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。  如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值
    • 协方差矩阵(必定是一个方阵)
      算法--偏差,方差,标准差,协方差,相关系数及相关理解_第2张图片
  • 2 相关系数

    • 相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:
      这里写图片描述
      这里写图片描述
    • 性质

      • 1、有界性
        相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。
      • 2、统计意义
        值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

3 PCA主元分析法

  • 这个链接很好
    http://blog.codinglabs.org/articles/pca-tutorial.html

4 DataFrame实现

https://blog.csdn.net/u011707148/article/details/76973946
主要是 DataFrame.corr()和DataFrame.corrwith()两个函数

你可能感兴趣的:(算法--偏差,方差,标准差,协方差,相关系数及相关理解)