数据分析入门-假设检验

参数检验

** U检验**:

  • 前提:在正太分布的样本均值u0和总体方差已知的情况下,双侧检验问题检验总体均值u=u0吗?
    P(|u-u0|>k)=a;拒绝域就是|u-u0|>k,落在拒绝域的概率是a,是显著性水平。
  • 怎么确定k值:引入了U统计量~N(0,1),计算,当u>ua的概率就是a,当a确定之后,ua是确定的,所以k也是确定的。但因为上面有绝对值,u-u0>k的概率和u-u0<-k的概率是a,那么对称性可知,一侧的概率是a/2
    同理,单侧检验问题uk值,这个和上面是一样的,或者u>u0吗?这个拒绝域是(小并且小了很多)u-u0<-k。
    可以写成更容易计算的形式:|u|>ua,是拒绝域,拒绝假设u=u0;
  • 应用: 检验两个正太分布的期望是否有显著差异;不过得总体方差已知,这个实际中大多方差都是不知道的

单样本的t检验

  • 前提:在正太分布的样本均值已知u0和总体方差未知,检验总体均值u=u0吗?

  • 和U检验类似,不过引入的是T统计量t(n-1),也是正好借助这个统计量中有的u-u0确定k。ta代表的是,t>ta的概率是a,用|t|>t(a/2)来表示双侧检验的拒绝域,用t>ta来表示单侧uu0的拒绝域

  • 落在拒绝域:就是拒绝不等式成立,就代表假设不成立

  • 怎么确定k值:对于单侧检验的话,u>u0,拒绝域u-u0<-k,因为P((u-u0)/S/sqrt(n)>ta)=a,所以t<-ta,

  • 应用:看某个正态分布的期望是否为C,或者已知之前的平均值,现在一组实验看与之前平均值有无显著差异。例如:在excel中做单样本的t检验怎么做?

  • 数据分析入门-假设检验_第1张图片
    Paste_Image.png

** 双样本的t检验**

  • 前提:两组正太分布,相互独立。总体方差均未知。两组数据的均值是否相同?

  • 确定拒绝域:假设u1-u2=0,拒绝域|u|>u(a/2).假设u1-u2>0,拒绝域为 u<-ua,假设u1-u2<0,拒绝域为u>ua

  • 应用:看两组数的平均值是否存在显著差异。例如:可以在excel中“数据分析”中直接使用该工具。在excel中a指的是双尾检验时的a,单尾检验就变成2*a


    数据分析入门-假设检验_第2张图片
    Paste_Image.png
  • 为什么不直接比较两组数据的均值?,因为单单是计算两组数据平均值,这样的结论还不能令人信服,因为这个差距可能是因为抽样的随机性而来,不一定反映本质,所以要考虑用假设检验来处理这个问题。

  • excel中还会多两个t-检验,如下图:
    数据分析入门-假设检验_第3张图片
    Paste_Image.png
  • 大样本
    在方差未知的情况下,可以用样本方差代替;T分布可以近似看成U分布。因为T的极限情况就是正太

** 两个样本方差检验(F检验)**

  • 前提: 总体期望未知,样本方差已知,用样本方差代替总体方差,看S1和S2的比值。近似F(n1-1,n2-1).
  • 拒绝域:假设o1=o2,则拒绝域是s1/s2>k1或者s1/s2
  • 应用:在两组样本t检验之前,要先看两个方差是否有显著性差异,例如,在excel中如下:
    数据分析入门-假设检验_第4张图片
    Paste_Image.png

** 单个样本的方差检验(卡方检验)**

  • 前提:正太分布的样本,总体均值未知,样本方差S已知
  • 确定拒绝域:引入了X2统计量,S和o2的比值,比值小于k1或者大于k2.
  • 应用:用来看观察值与理论值的偏差

分布检验

  • 分布检验的假设
    H0:X的分布函数为F(x);将该假设转化为H0总体值在区间Ii内的概率为pi
  • 正太分布检验
    先计算这个区间的理论概率p(Ua-U(a-1)),频数就是np,在一组样本中我们知道每个区间内数据的频数a,用卡方检验如果X(计算出来)>Xa(查表得到),则可以认为服从正太分布。X计算公式特别像一个误差计算
  • 应用:在参数估计和假设检验中往往是假定某组数服从正太分布,但实际中我们往往不知道某组数的分布情况,因此必须先根据样本对总体分布进行检验。
    例如在SPSS里面有P-P图(正太概率图)、QQ图,还有KS检验

辅助检验方法:1)观察正态概率图,如果数据来自正态分布,图形的散点应该呈现一条直线。2)绘制数据的条形图,如果数据来自正态分布,条形图呈现“钟形”分布。3)观察描述性统计量中偏度系数(Skewness)g1和峰度系数(Kurtosis)g2,如果数据来自正态分布,则两者都应该是0(适合大样本,仅当N>30时才有效)。

异常值检验

  • 格布拉斯准则(G检验):总体要服从正太分布,样本量小,假设检验,G=(Xavg-Xmin)/标准差,再和表中对比。只能检测出来某个值是否为异常值,如果是的话,还要一直循环。
    适用于小样本;但局限是,当同侧异常值较为接近时,效果不好。
  • 拉依达准则:总体要服从正太分布,且样本量大(n必须大于10)。u+3o和u-3o的概率很小。这样可以得到一个最大最小值的临界点
  • 箱图:总体不用服从正太分布。异常值区间(1/4相位点-1.5*(3/4-1/4相位点值),3/4相位点+1.5(3/4-1/4相位点值)),例如在excel中


    数据分析入门-假设检验_第5张图片
    Paste_Image.png

你可能感兴趣的:(数据分析入门-假设检验)