卡方分布Chi-squared Distribution

\chi^{2}分布通过检验统计量X^{2}=\sum \frac{(O-E)^{2}}{E}来比较期望结果和实际结果之间的差别,然后得出观察结果发生的概率。其中O代表观察值,E代表期望值。这个检验统计量提供了一种期望值与观察值之间差异的度量办法。最后反映在\chi^{2}数值的大小上。

那么,当\chi^{2}大到什么程度,差异才算显著呢?这要根据自由度,设定的显著性水平查找\chi^{2}分布表来判定。对于卡方分布的具体使用,我认为其有三要素:一个公式,一张分布表,一张概率密度图。下左图中n代表自由度,纵轴为概率值,横轴为卡方值。自由度越大,卡方分布的外形越接近正态分布。下右表即为卡方分布表,第一列为自由度,第一行为显著水平,据此可以查找到临界值,如果检验统计量\chi^{2}大于临界值,则检验统计量就位于拒绝域以内,说明观察结果与期望结果之间的差异显著。

卡方分布Chi-squared Distribution_第1张图片

\chi^{2}分布有两个主要用途:

(1)用于检验拟合优度,也就是可以检验一组数据与指定曲线的拟合程度,或检验某组观察值是否符合某种分布。

(2)检验两个变量的独立性,通过这个方法检查两个变量之间是否存在某种关联

对于拟合优度检验,主要是找到期望值与观察值,带入公式计算卡方值,然后查表即可得出结论。举例说明:

本人开发了一台体重秤,我想通过与标准体重秤对比,看看我开发的体重秤在精度上是否能够和标准设备相媲美,是否与标准设备存在显著差异,于是我找来5个人,我知道他们总体重值为300kg,所以我只需要知道4个人的体重,就可以知道第五个人的体重,因此,确定了自由度为4,然后设定了显著性水平\alpha=0.05。对于每一个人,各用我开发的体重秤和标准体重秤称量一次,我就获得了每个人的期望值(标准称量结果)与我的观察值(我开发的体重秤称量结果),然后带入卡方公式求得卡方值,与查表所得临界值进行比较,如果大于临界值,说明差异显著。

对于变量独立性检验,与拟合优度检验的差别在于需要通过观察值算出期望值,这要依靠概率。。。 首先要为两个变量构建列联表,假设我们要检验一场赌局的结果是否与庄家有关系,观察结果如下:

观察值 庄家A 庄家B 庄家C 合计
43 49 22 114
8 2 5 15
47 44 30 121
合计 98 95 57 250

据此依靠概率建立期望值,我们假设庄家和是否赢局无关,则依据此假设建立起来的A坐庄且赢的概率=A坐庄率X赢局率

A坐庄率=98/250

赢局率  =114/250

于是与A坐庄且赢的观察值所对应的期望值为250XA坐庄率X赢局率

以此类推,可求得其他期望值。

期望值 庄家A 庄家B 庄家C
44.688 43.32 25.992
5.88 5.7 3.42
47.432 45.98 27.588

自由度是在考虑限制条件的情况下,可以自由选择的独立信息的数目。鉴于我们知道每一行和每一列的总和,因此,只需知道表中红色部分的内容即可,因此自由度为4.

当卡方结果大于临界值,说明观察值和期望值有差别,由于我们的假设认为是否赢局和庄家没有关系,基于此假设,计算得到期望值,可实际观察值和期望值却有明显差别,则说明两个变量不独立,反之,如果卡方结果小于临界值,则独立。

就是因为我们在假设两个变量相互独立的情况下得到的期望值,如果观察值与期望值无显著差别,说明观察值符合我们的假设。

你可能感兴趣的:(卡方分布Chi-squared Distribution)