在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。这可以通过绘制样本数据直方图的方法来进行粗略的判断。如果需要进行比较准确的判断,则需要使用非参数检验的方法。其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。
一、定义
总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。
总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋于无穷时,就近似服从X的总体分布。
因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q
,其中,Oi表示观察频数;Ei表示期望频数或理论频数。
可见Q值越大,表示观察频数和理论频数越不接近;Q值越小,说明观察频数和理论频数越接近。SPSS将自动计算Q统计量,由于Q统计量服从K-1个自由度的X平方分布,因此SPSS将根据X平方分布表给出Q统计量所对应的相伴概率值。
如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。
因此,总体分布的卡方检验是一种吻合性检验,比较适用于一个因素的多项分类数据分析。总体分布的卡方检验的数据是实际收集到的样本数据,而非频数数据。
二、实例
某地一周内各日患忧郁症的人数分布如下表所示,请检验一周内各日人们忧郁数是否满足1:1:2:2:1:1:1。
周日 | 患者数 |
1 | 31 |
2 | 38 |
3 | 70 |
4 | 80 |
5 | 29 |
6 | 24 |
7 | 31 |
实施步骤:
1、打开PAWS Statistics 18(即SPSS 18),导入数据。
2、数据--加权个案,如下图所示
3、分析--非参数检验--卡方检验
卡方检验:http://baike.baidu.com/view/852140.htm