基本统计量与统计图的作用与区别

基本统计量与统计图的作用于区别


学习大数据的必修之路是学习统计学,而贯穿于统计学的几个基本统计量和统计图却是我们很容易忘记和搞混的,这篇文章就是为了解释这些基本的统计量与统计图的含义、作用、区别的。能够加深我们对数据分析的理解。

基本统计量

  • 样本均值
    样本均值是反映样本数据集中趋势的统计量,是对单个变量样本数据取值一般水平的描述。
    公式:这里写图片描述

  • 样本协方差
    在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况
    从数值来看,协方差的数值越大,两个变量同向程度也就越大,反之亦然。
    可以看出来,协方差代表了两个变量之间的是否同时偏离均值,和偏离的方向是相同还是相反。
    公式:这里写图片描述

# 用numpy实现
import numpy as np

# Sample Date - SH000300 Earning in 2017-03

datas_sh000300 = [0.16, -0.67, -0.21, 0.54, 0.22, -0.15, -0.63, 0.03, 0.88, -0.04, 0.20, 0.52, -1.03, 0.11, 0.49, -0.47, 0.35, 0.80, -0.33, -0.24, -0.13, -0.82, 0.56]

datas_sz000651 = [0.07, -0.55, -0.04, 3.11, 0.28, -0.50, 1.10, 1.97, -0.31, -0.55, 2.06, -0.24, -1.44, 1.56, 3.69, 0.53, 2.30, 1.09, -2.63, 0.29, 1.30, -1.54, 3.19]

cov2 = np.cov(datas_sh000300, datas_sz000651, ddof=0)[1][0]

print(str(cov2))

# result = 0.438529489603
  • 样本方差
    方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。
    公式1:这里写图片描述
    公式2:这里写图片描述
    在上面的方差公式和标准差公式中,存在一个值为N的分母,其作用为将计算得到的累积偏差进行平均,从而消除数据集大小对计算数据离散程度所产生的影响。不过,使用N所计算得到的方差及标准差只能用来表示该数据集本身(population)的离散程度;如果数据集是某个更大的研究对象的样本(sample),那么在计算该研究对象的离散程度时,就需要对上述方差公式和标准差公式进行贝塞尔修正,将N替换为N-1:
    简单的说,是除以 N 还是 除以 N-1,则要看样本是否全,比如,我要统计全国20岁男性的平均身高,这时间你肯定拿不到全部20岁男性的身高,所以只能随机抽样 500名,这时间要除以 N-1,因为只是部分数据;但是我们算沪深300在2017年3月份的涨跌幅,我们是可以全部拿到3月份的数据的,所以我们拿到的是全部数据,这时间就要除以 N。
# 用numpy实现

import numpy as np

datas = [0.16, -0.67, -0.21, 0.54, 0.22, -0.15, -0.63, 0.03, 0.88, -0.04, 0.20, 0.52, -1.03, 0.11, 0.49, -0.47, 0.35, 0.80, -0.33, -0.24, -0.13, -0.82, 0.56]

variance = np.var(datas)

print(str(variance))

# result = 0.253493383743
  • 样本标准差
    方差开根号
    公式:这里写图片描述
# 用numpy实现
import numpy as np

# Sample Date - SH000300 Earning in 2017-03

datas = [0.16, -0.67, -0.21, 0.54, 0.22, -0.15, -0.63, 0.03, 0.88, -0.04, 0.20, 0.52, -1.03, 0.11, 0.49, -0.47, 0.35, 0.80, -0.33, -0.24, -0.13, -0.82, 0.56]

standard_deviation2 = np.std(datas, ddof = 0)

print(str(standard_deviation2))

# result =0.50348126454
  • 协方差矩阵
    是很多各变量两两之间的协方差形成的矩阵,协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差。
    公式:这里写图片描述

  • 协方差的相关系数
    协方差的相关系数,不仅表示线性相关的方向,还表示线性相关的程度,取值[-1,1]。也就是说,相关系数为正值,说明一个变量变大另一个变量也变大;取负值说明一个变量变大另一个变量变小,取0说明两个变量没有相关关系。同时,相关系数的绝对值越接近1,线性关系越显著。
    公式:用X、Y的协方差除以X的标准差乘以Y的标准差。

import numpy as np

import math

# Sample Date - SH000300 Earning in 2017-03

datas_sh000300 = [0.16, -0.67, -0.21, 0.54, 0.22, -0.15, -0.63, 0.03, 0.88, -0.04, 0.20, 0.52, -1.03, 0.11, 0.49, -0.47, 0.35, 0.80, -0.33, -0.24, -0.13, -0.82, 0.56]

datas_sz000651 = [0.07, -0.55, -0.04, 3.11, 0.28, -0.50, 1.10, 1.97, -0.31, -0.55, 2.06, -0.24, -1.44, 1.56, 3.69, 0.53, 2.30, 1.09, -2.63, 0.29, 1.30, -1.54, 3.19]

cov = np.cov(datas_sh000300, datas_sz000651, ddof=0)[1][0]

standard_deviation_sh000300 = np.std(datas_sh000300, ddof=0)

standard_deviation_sz000651 = np.std(datas_sz000651, ddof=0)

ppcc = cov/(standard_deviation_sh000300*standard_deviation_sz000651)

print(str(ppcc))

# result = 0.554372485367

基本统计图

  • 散点图
    散点图又称散布图或相关图,是直观反映变量之间相关关系的一种统计图形。

    • 简单散点图
      反应两个变量之间的相关关系
      基本统计量与统计图的作用与区别_第1张图片
    • 三维散点图
      反应三个变量之间的相关关系
      基本统计量与统计图的作用与区别_第2张图片
    • 矩阵散点图
      反应n各变量之间的相关关系
      基本统计量与统计图的作用与区别_第3张图片
  • 箱线图
    是处理连续多元数据的一种常用图形。它能同时显示每一个变量的中位数、四分位数、异常值以及最大值和最小值,因此能直观的表现出未分组或以分组的变量值的分布,可以粗略的看出数据的的对称性、分散性以及异常情况等。
    基本统计量与统计图的作用与区别_第4张图片
    基本统计量与统计图的作用与区别_第5张图片

  • 条形图
    条形图在统计分析中比较常用,它用宽度相等的矩形的长短来表示各类数据的大小和频率分布特性,简洁明了。
    基本统计量与统计图的作用与区别_第6张图片

你可能感兴趣的:(BigData)