【数据异常校验】卡方检验(chi-squared test)处理异常数据

简介

卡方检验,也写为χ 2检验,是任何统计假设检验,其中采样分布的检验统计量是一个卡方分布,当零假设为真。

“卡方检验”经常被用作短期的皮尔逊的卡方检验用于确定预期频率与一个或多个类别中观察到的频率之间是否存在显着差异。

 

在测试的标准应用中,观察被分类为互斥的类别,并且存在一些理论,或者说零假设,其给出任何观察落入相应类别的概率。测试的目的是评估所做观察的可能性,假设零假设为真。

 

卡方检验通常由平方误差之和或样本方差构成。遵循卡方分布的测试统计量来自独立正态分布数据的假设,这在许多情况下由于中心极限定理而有效。卡方检验可用于尝试拒绝数据独立的零假设

 

卡方检验是一种渐近正确的检验,这意味着采样分布(如果零假设为真)可以通过使样本量变大来近似卡方分布

 

历史

在19世纪,统计分析方法主要应用在生物数据分析,是习惯的研究人员假设观察遵循正态分布,如乔治·艾里先生和梅里曼教授,其作品被批评卡尔·皮尔逊在他的1900纸。

直到19世纪末,皮尔森注意到在一些生物观察中存在显着的偏斜。Pearson在1893年至1916年发表的一系列文章中设计了Pearson分布,一系列连续概率分布,以便对观察结果进行建模,无论是正常还是偏斜。其中包括正态分布和许多偏态分布,并提出了一种统计分析方法,包括使用Pearson分布对观察进行建模并进行拟合优度测试,以确定模型和观察结果的真实适合程度。

 

皮尔逊的卡方检验

在1900年,皮尔逊发表的论文上的X^{2},其被认为是现代统计的基础的一个测试。在本文中,Pearson研究了拟合优度的检验。

假设来自群体的随机样本中的n个观察被分类为具有相应观察数 x_{i} 的 k个互斥类(对于i = 1,2,...,k),并且零假设给出观察到的概率 p_{i} 进入我的班级。因此,对于所有i, 我们有预期的数字 m_{i} = np_{i}

 

皮尔逊提出,下无效假设是正确的,因为的情况Ñ →∞下面给出的量的限制分布是X^{2}分布。

 

Pearson首先处理的情况是,假设每个x_{i}都可以被视为正态分布,所有单元中的预期数 m_{i} 足够大,并且达到了这样的结果:在n变大的极限中,X^{2}跟随X^{2}分布ķ - 1个自由度。

然而,皮尔逊下考虑其中预期数量上必须从样品估计的参数依赖的情况下,并建议,用符号m_{i}是真正的预期数字,而 m'_{i}是估计的预期数字,区别

通常是积极的,小到足以被省略。在一个结论,皮尔逊认为,如果我们认为X ' 2成也分布χ 2分布ķ - 1个自由度,在这种近似的错误不会影响实际的决定。这一结论在实际应用中引起了一些争议,直到费舍尔1922年和1924年的论文才解决了20年。

 

应用

在密码分析中,卡方检验用于比较明文和(可能)解密密文的分布。测试的最低值意味着解密成功的概率很高。这种方法可以推广用于解决现代加密问题。

在生物信息学中,卡方检验用于比较属于不同类别的基因的某些属性的分布(例如,基因组内容,突变率,交互网络聚类等)(例如,疾病基因,必需基因,某些基因在某一特定基因上)染色体等)。

 

参考:https://en.wikipedia.org/wiki/Chi-squared_test

 

你可能感兴趣的:(Big,Data,Analysis,数据科学)