概率分布总结及正态分布检验&K-S检验用法

概率分布总结及正态分布检验&K-S检验用法

  • 由f分布引发的故事
  • 概率分布用法总结
  • 正态分布
  • K-S检验
    • K-S检验使用场合
    • K-S检验理论
    • K-S检验在python中用法
    • K-S检验在spss中用法
  • 总结

由f分布引发的故事

昨天晚上臭汪汪说考考我最近学了啥,随便翻了翻,
问:F分布是干嘛的

答:两个卡方分布的比服从的分布,F分布是建立在卡方分布的基础上,卡方分布建立在正态分布基础上。
指定f值有对应的p值,指定P值也有对应f值。
在涉及两个总体的方差比的参数估计和假设检验都会用到它。

概率分布用法总结

此汪并不懂统计学,6年前学的概率论早已还给老师。
汪:你说的好长好多,我听不懂也记不住你在说什么,你可以凝练一下这些各种分布的用法口诀吗
答:服从正态分布,大样本小样本均用正态分布;不服从正太分布,大样本用正态分布,小样本用t分布。服从正态分布平方和用卡方分布,两个卡方分布比用f分布。

正态分布

汪似懂非懂:那么我要怎么看样本是否服从正态分布呢?
答:通常可以把样本【频数分布直方图】或【茎叶图】画出来,看它是否和正态分布曲线相似
汪激动了起来:你这也太不专业了吧!这怎么能感觉它是不是服从正态分布呢?
狡辩答:这可是很常用的一种方法
汪不屑:那有没有很准确的方法呢
小声答:有,其中一种通吃大小样本的方法–KS检验法
汪:今天不早了,你明天总结一下KS吧

K-S检验

K-S检验使用场合

Shapiro-Wilk也可以用来做正态分布检验,但是它适用于小样本,有一定局限性,K-S检验既可以用于大样本,也可以用于小样本。

K-S检验理论

K-S可以检验总体是否服从某种已知的理论分布,通过比较实际频数和期望频数,来检验拟合程度。

原假设和备择假设:
H0:S(x)=F( x ), H1:S(x)!=F( x )

样本观测值实际累计概率为S(x),理论累计概率为F(x),实际和理论的差值为D
D=max( |S(xi)-f(xi)| )
因为累计概率是离散值,要做修正,修正为:
D=max(( |S(xi)-f(xi)| ),( |S(xi-1)-f(xi)| ))
然后用K-S检验统计量,小样本服从Kolmogorov分布(3~50),大样本服从正态分布。

大样本:
Z=n0.5 D
计算P值,若P<0.05(显著性水平a),拒绝原假设,否则不拒绝原假设

K-S检验在python中用法

import numpy as np
from scipy.stats import kstest
data=np.random.randn(100)
#ks检验:正态分布
pv=kstest(data,'norm')
print(pv)
print(pv.pvalue-0.05)   //是否大于显著性看着更明显一点

在这里插入图片描述
值得注意的一点是,如果data是dataframe的时候要取出values,再带入函数中。

import numpy as np
from scipy.stats import kstest
data=DataFrame(np.random.randn(100),columns=['a'])
#ks检验:正态分布
pv=kstest(data['a'].values,'norm')
print(pv)
print(pv.pvalue-0.05)   //是否大于显著性看着更明显一点

K-S检验在spss中用法

概率分布总结及正态分布检验&K-S检验用法_第1张图片
把要检验的变量拖到检验变量列表,勾选要检验的分布点击【确定】
概率分布总结及正态分布检验&K-S检验用法_第2张图片
根据P值决定是否拒绝原假设
概率分布总结及正态分布检验&K-S检验用法_第3张图片
课程门数P值<0.05,拒绝原假设,支持备择假设,不服从正态分布。数据挖掘成绩P值>0.05,不拒绝原假设,没有证据表明数据挖掘的分数分布不服从正态分布。
我们再看看这两组数据的频数分步直方图吧:
概率分布总结及正态分布检验&K-S检验用法_第4张图片
概率分布总结及正态分布检验&K-S检验用法_第5张图片

总结

KS在检验模型拟合优度方面发挥了重要作用,在后续的工作和学习中如果有更多的了解和体验,我们再继续交流

你可能感兴趣的:(数据分析,数据分析,统计学,正态分布检验,K-S)