数据探索

协方差与相关系数

对于二维随机变量(X,Y), 我们除了讨论X与Y的数学期望和 方差以外, 还需要描述X与Y之间的相互关系.

  • 协方差
    Cov(X,Y)=E{[XE(X)]×[YE(Y)]} C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] }

    求期望的部分为X与X期望的差 乘以 Y与Y期望的差. 所以它描述的是X与Y 两个变量的变化是否协同 以及协同的程度. 若为正, 说明同步变化, 一方增长的同时另一方也增长. 若为负, 说明变化趋势相反.
  • 相关系数
    ρ(X,Y)=Cov(X,Y)σ(X)σ(Y) ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y )

    σ(X) σ ( X ) 为标准差.
    相当于对协方差做归一化.

1.1 例子

对照着例子来做一个直观体验.
数据探索_第1张图片
图1-1 X与Y两个自变量, 7个观测值, E(X)=0, E(Y)=0. 分两组用来对比

  1. 情况一
    • 协方差
      Cov(X,Y)=E{[XE(X)]×[YE(Y)]}=(1000)(700)+(1000)(700)+...+(00)(00)7=15428 C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 100 − 0 ) ∗ ( 70 − 0 ) + ( − 100 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 15428
    • 相关系数
      σ(X)=130.93,σ(Y)=119.28 σ ( X ) = 130.93 , σ ( Y ) = 119.28
      ρ(X,Y)=Cov(X,Y)σ(X)σ(Y)=15428130.93119.28=0.9879 ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 15428 130.93 ∗ 119.28 = 0.9879
  2. 情况二
    • 协方差
      Cov(X,Y)=E{[XE(X)]×[YE(Y)]}=(0.010)(700)+(0.010)(700)+...+(00)(00)7=1.5428 C o v ( X , Y ) = E { [ X − E ( X ) ] × [ Y − E ( Y ) ] } = ( 0.01 − 0 ) ∗ ( 70 − 0 ) + ( − 0.01 − 0 ) ∗ ( − 70 − 0 ) + . . . + ( 0 − 0 ) ∗ ( 0 − 0 ) 7 = 1.5428
    • 相关系数
      σ(X)=0.013093,σ(Y)=119.28 σ ( X ) = 0.013093 , σ ( Y ) = 119.28
      ρ(X,Y)=Cov(X,Y)σ(X)σ(Y)=1.54280.013093119.28=0.9879 ρ ( X , Y ) = C o v ( X , Y ) σ ( X ) σ ( Y ) = 1.5428 0.013093 ∗ 119.28 = 0.9879

协方差有了对应尺度的变化, 但相关系数相同.

直方图

直返图,histogram, wikipedia 地址.
一种表达概率分布的条形图. 一般横轴是业务数据, 纵轴是落入相应数据范围的样本个数.
按照横轴的值是离散的还是连续的, 又可以分为两种.

  • 横轴为离散值
    比如统计一个学校各个班级中的学生人数, 那么横轴天然就是离散的.
  • 横轴为连续值
    此时需要将其离散化, 通常采用固定步长划分为多个区间, 然后再计算落入不同区间的样本值个数.

    图1-1 横轴为连续值的直方图

百分位图

百分位, Percentile, wikipedia 地址.
统计学中的一种度量, 可表示为:n个样本值从小到大排列, 处于p%位置的值, 称第p百分位数的值。
数据探索_第2张图片
图2-1 统计文章发布时间的百分位图
从上图可以看到, 数据密集分布在特定的某些值上, 所以不同的百分位数值可能会一样.
引申一下, 在等频划分数据档次的时候, 划分点其实就是百分位点.

参考

  1. 知乎: 如何通俗易懂地解释「协方差」与「相关系数」的概念?

你可能感兴趣的:(数据探索)