数据分析师必备的统计知识

重点关注:

  • 众数、平均数、中位数
  • 四分位数、四分位距、方差、标准差、贝塞尔矫正
  • 标准正态分布
  • 正态分布
  • 抽样分布
  • 估计
  • 假设检验
  • T检验

 

其实,世界上存在很多样本总体的分布是不清楚的,所以通过一些样本数据的分布参数去预估总体分布的参数,这就是估计。

估计分为点估计和区间估计

 

所谓点估计,就是将样本分布参数近似看作总体分布的分布参数,这种方法得到的总体分布参数与实际的总体分布参数是有差别的,但是通过大量的重复抽样,可以近似的看成是一种无偏估计量

无偏估计主要有以下几种:

前提是,这些X都是总体的独立随机样本,其均值都等于u,

所谓的区间估计,例如:你在路上看到一个美女,你目测其身高在170至175之间,并且根据多年的经验,有95%的把握。这就是一个区间估计,170至175就是置信区间,95%就是置信度

目前有对于区间估计的计算主要分为下面四个,直接套用相应的计算公式即可

  • 正态总体均值的置信区间
  • 两个正态总体均值之差的置信区间
  • 二项分布试验参数p的置信区间
  • 两个二项分布实验参数p之差的置信区间

区间估计的前提是,首先判断总体是正态分布还是二项分布,然后套用对应的计算公式即可

其实,你需要明白其后面的计算原理,而实际计算可以通过编程来解决

 

 

所谓的假设检验就是:

超市里面有包装好的红糖,上面标明净重500g,但是你觉得没有这么重,拿回去一称,499.2g,然后你就找超市,要求退货。超市找厂家,厂家说这是正常的,误差是机器的原因。然后整么办?

厂家给出了他的一个重量统计分布,然后将你称到的重量带入公式,如果计算的出来的概率很小,说明厂家的统计分布有问题,需要赔偿。如果较大,则厂家无责。

如何是大如何是小呢?这就是人为规定的,不同的问题有不同的标准。一般情况是小于0.05即为小,大于0.05即为大。这里规定的0.05也叫显著性水平。

目前有基于已知分布的检验,但是在现实生活中,很难事先判断总体的分布,如果妄加基于某个分布去检验,会导致致命的错误。故很多情况下,可以基于非参数检验总体,非参数检验的方法有很多种,可以自己多收集。

注意:对于数据的检验时,不能对现实数据进行删减或修改;其次,可以用多种方法对同一个总体进行检验,只要有一种检验方法能“拒绝零假设”,就应该拒绝零假设,而那些不能拒绝零假设的检验方法,只能说明其相对效率较低或者势不足

 

模型:根据现有的数据建立自己所关心的变量和其它有关变量的关系,这种关系一般称为模型,

而建立这种关系的过程就叫做回归或者分类。当因变量为数量变量时,叫做回归。而当因变量为定量变量时叫做分类

 

主要分为经典分类和回归  和    现代分类和回归:机器学习方法

 

经典回归分类和方法大多数基于目前无法验证的数学假定的基础上,并且还是线性的

现代分类和回归就没有上述问题

判别预测方法的好坏及比较不同方法的预测效果可以用交叉验证来实行,交叉验证可以用于各种模型

交叉验证:用机器学习出来的模型用来预测没有用来建模的数据

 

 

 

决策树:组合方法的基石。单一决策树方法的结果较差,但是与其它方法组合起来可以非常精确的预测结果

如:boosting和随机森林

 

 

你可能感兴趣的:(#,Tableau可视化)