SparkML之假设性检验(二)分布拟合检验

1.什么是分布拟合检验

在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。比如依据大数定理,

我们假设一组生产零件是成正态分布的,但是这个所为的成正态分布也只是我们的假设,为了验证我们的假设那么就需要对

这个分布进行检验,这就是分布拟合检验 ,也称之为:非参数检验。下面就介绍检验


2.检验

检验法:总体分布X未知的时候,根据来自总体的样本,来检验之前假设的分布。具体原理可以查看
(http://wiki.mbalib.com/wiki/卡方分布)。
下面结合实际列子对 检验 法简单阐述(检验法,有很多用处,下面是独立性检验)。

SparkML之假设性检验(二)分布拟合检验_第1张图片

问题:色盲和性别是否相互独立?

第一步:检验原假设:

:色盲与性别相互独立

第二步:计算理论频数:



第三步:计算拒绝域:

我们希望是可信度 a = 0.01的情况下,那么拒绝域为:



第四步:下结论




所以拒绝原假设,认为色盲和性别有关联:

SparkML实验:

package Basic

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics.chiSqTest
/**  * Created by andrew on 2016/4/14.  */ object chiSqrtTest {
  def main(args: Array[String]) {
    val x1 = Vectors.dense(458.88,21.12)
    val x2 = Vectors.dense(497.12,22.88)
    val c1 = chiSqTest(x1,x2)
    println(c1)
    /**  * Chi squared test summary:  method: pearson  degrees of freedom = 1  statistic = 7.041436253018793E-30  pValue = 0.9999999999999979  No presumption against null hypothesis: observed follows the same distribution as expected..  */  }
}


你可能感兴趣的:(spark)