5、正太检验与分布拟合
在R中使用函数shapiro.test()进行正态W检验
> shapiro.test(cp$产量.台.)
Shapiro-Wilk normality test
data: cp$产量.台.
W = 0.9671, p-value = 0.7903
当p值小于某个显著水平a(如0.05)时,认为样本不是来自于正态分布的总体。
0.7903>0.05,可认为产量是正态分布的。
Kolmogorov-Smirnov检验
它是检验单一样本是否来自某一特定分布的方法。比如检验一组数据是否为正态分布。它的检验方法是以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则论该样本取自某特定分布族。
Kolmogorov-Smirnov正态性检验
Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法。其原假设H0:两个数据分布一致或者数据符合理论分布。
D=max| f(x)- g(x)|,当实际观测值D>D(n,α)则拒绝H0,否则则接受H0假设。
R语言中ks.test完成正态性检验。
ks.test(x, y, ...,
alternative = c("two.sided", "less", "greater"),
exact = NULL)
有四个参数,第一个参数x为观测值向量,第二个参数y为第二观测值向量或者累计分布函数或者一个真正的累积分布函数如pnorm,只对连续CDF有效。第三个参数为指明是单侧检验还是双侧检验,exact参数为NULL或者一个逻辑值,表明是否需要计算精确的P值。
比如我们生成2个随机的正态分布,然后检验这2个分布是否是同一类型的分类
> ks.test(rnorm(80),rnorm(40))
Two-sample Kolmogorov-Smirnov test
data: rnorm(80) and rnorm(40)
D = 0.125, p-value = 0.7874
alternative hypothesis: two-sided
>
如果我们把作为原假设,即被检验的假设,称作零假设,此外同时存在备择假设或对立假设。p值大于0.05,不拒绝原假设,认为这2个分布是同一类型。
但要注意:Kolmogorov-Smirnov检验要求待验分布是连续的,而连续分布出现相同值的概率为0。也就是说数据中倘出现相同值,则连续分布的假设不成立