SPSS处理单样本、多样本数据方法

文章目录

      • 数据分析常用概念
      • 卡方检验
      • 单样本K-S检验
      • 两独立样本的非参数检验
      • 多个独立样本的非参数检验
      • 两配对样本检验
      • 多匹配样本的非参数检验

数据分析常用概念

偏度:分布不对称性测量。正态分布是对称的,偏度值是0。偏度值大于0表示正偏态,具有显著的正偏态的分布具有很长的右尾。偏度值小于0表示负偏态,具有显著的负偏态的分布具有很长的左尾。作为一个指导,当偏度值超过标准误差的两倍时,即认为分布不具有对称性。

峰度:观察值聚集在中点周围的程度的测量。对于正态分布,峰度统计的量为0。正峰度值表示相对正态分布,观察值在分布中心聚集得更多,同时尾部更薄。负峰度值表示相对正态分布,观察值在分布中心聚集得更少,同时尾部更厚。

箱图:上边线表示第75百分位数,下边线表示第25百分位数,中间线表示中位数,箱子上下两条横线表示离群值和极值的最大值和最小值。离群值是指离箱子的上下边线的距离为箱子高度的三倍以上的变量值。
SPSS处理单样本、多样本数据方法_第1张图片
实例:
分析男女生语文成绩各自特征
操作:点击分析>描述统计>频率
SPSS处理单样本、多样本数据方法_第2张图片
SPSS处理单样本、多样本数据方法_第3张图片
点击Stalistics
SPSS处理单样本、多样本数据方法_第4张图片
点击图表
SPSS处理单样本、多样本数据方法_第5张图片
分析结果:
SPSS处理单样本、多样本数据方法_第6张图片
SPSS处理单样本、多样本数据方法_第7张图片

列联表分析与假设检验的基本思想一致,先建立一个零假设,认为两个变量之间没有关联,然后进行卡方检验,计算发生的概率,通过概率是否达到显著性水平来判断拒绝和接受零假设。
χ 2 = ∑ ( A − T ) 2 T \chi^2=\sum\frac{(A-T)^2}{T} χ2=T(AT)2
卡方表达式中,A是实际频数,T是期望频数。

相关系数

phi系数表示为卡方值平均到每个样本上的平均比率差异,平均差异越大。
p h i = χ 2 n phi=\sqrt{\frac{\chi^2}{n}} phi=nχ2
phi的系数越大,表示两变量类型是独立无关的,在2*2列联表中,phi的值介于-1至1之间,当水平数超过2时,phi的值有可能大于1.因此phi相关系数用于分析两因素之间的关联程度。当phi小于0.3时,表示两变量相关性较弱;当phi值大于0.6时,表示两变量相关性强。

cramer’V系数是phi系数的修正值,适用于四格表。
c r a m e r ’ V V = χ 2 n ( k − 1 ) cramer’V V=\sqrt{\frac{\chi^2}{n(k-1)}} cramerVV=n(k1)χ2
其中,k为行数或列数中较小的数值。

相依系数:又称列联系数,取值在0至1之间,值越接近1,表示变量之间的关联性越强。

Lambda:反应使用自变量的值来预测因变量的值时,误差成比例缩小。取值在0到1之间,值为0时表示自变量对于预测因变量没有帮助,值为1时表示自变量能完全预测因变量。

不确定性系数:表示当一个变量的值用来预测其它变量的值时,误差成比例下降的程度,取值在0到1之间,值越接近1,表示该变量能很好预测其它变量的程度就增加
SPSS处理单样本、多样本数据方法_第8张图片

皮尔逊(Pearson)相关系数:又称线性相关系数,有时也称积差相关系数

计算公式为
r = ∑ i = 1 n ( x i − x ‾ ) ∑ i = 1 n ( x − x ‾ ) 2 ( y i − y ‾ ) 2 r=\frac{\sum_{i=1}^{n}(x_i-\overline{x})}{\sqrt{\sum_{i=1}^{n}(x-\overline{x})^2(y_i-\overline{y})^2}} r=i=1n(xx)2(yiy)2 i=1n(xix)
其中,n为样本容量, x i x_i xi y i y_i yi为两变量对应的样本值。

Pearson相关系数的t检验统计量,定义为
t = n − 2 1 − r 2 t=\frac{\sqrt{n-2}}{\sqrt{1-r^2}} t=1r2 n2
斯皮尔曼(Spearman)等级相关系数:根据数据的秩而不是数据的实际值计算,适用于有序数据和不满足正态分布假设的等间隔数据。取值范围在 ( − 1 , 1 ) (-1,1) (1,1)区间上,绝对值越大,相关性越强。

计算公式为:
r = 1 − 6 ∑ i = 1 n d i 2 n ( n 2 − 1 ) r=1-\frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)} r=1n(n21)6i=1ndi2
其中,n为观察对的对数, d i d_i di表示每对观察值 ( x , y ) (x,y) (x,y)的秩之差,即 d i = r g ( X i ) − r g ( Y i ) d_i=rg(X_i)-rg(Y_i) di=rg(Xi)rg(Yi)

Spearman等级相关系数检验零假设就是相关系数为0,在小样本的情况下,Spearman等级相关系数就是检验统计量,当是大样本的时候,采用正态检验统计量 Z = r n − 1 Z=r\sqrt{n-1} Z=rn1 。当零假设成立时,小样本统计量服从Spearman分布,大样本统计量接近服从标准正态分布。

肯德尔(Kendall)等级相关系数:对两个有序变量或两个秩变量之间相关程度的测度,属于非参数估计,统计时考虑了秩相同点的影响。利用变量秩数据计算一致对数目(U)和不一致对数目(V)来构造统计量。

计算公式为:
r = 2 ( U − V ) n ( n − 1 ) r=\frac{2(U-V)}{n(n-1)} r=n(n1)2(UV)
Kendall等级相关系数检验零假设就是相关系数为0,在小样本的情况下,Kendall等级相关系数就是检验统计量,当是大样本的时候,采用正态检验统计量 Z = r 9 n ( n − 1 ) 2 n ( 2 n + 5 ) Z=r\sqrt{\frac{9n(n-1)}{2n(2n+5)}} Z=r2n(2n+5)9n(n1) 。当零假设成立时,小样本统计量服从Kendall分布,大样本统计量接近服从标准正态分布。

卡方检验

目的:通过样本数据的分布来检验总体分布与期望分布或某一理论是否一致,零假设是样本的总体与期望没有显著差异。

基本思想:如果从一个随机变量X中随机抽取若干个样本均值,当这些样本落在 X X X k k k个互不相关的子集中的观察频数服从一个多项分布,当k趋于无穷时,这个多项分布服从卡方分布。

卡方检验的零假设是:两个变量之间没有显著差异。若两种检验(皮尔逊卡方、似然比)的渐进显著性水平(双向)都小于0.05,则拒绝零假设,若两种检验的双向显著性水平都大于0.05,则不能拒绝零假设。

即:若卡方的渐进显著性小于0.05,表明变量之间有显著差异,若卡方的渐进显著性大于0.05,表明变量之间没有显著差异。

基本方法:

  • 根据已知总体的构成比计算出样本中各类别的期望频数,计算实际观察频数与期望频数的差距,即:计算卡方值 χ 2 = ∑ i = 1 k ( 观测频数 − 预测频数 ) 2 预测频数 \chi^2=\sum_{i=1}^{k}\frac{(\text{观测频数}-\text{预测频数})^2}{\text{预测频数}} χ2=i=1k预测频数(观测频数预测频数)2

  • 卡方值越小,则实际频数和期望频数相差越小.如果P大于显著性水平 α \alpha α,不能拒绝 H 0 H_0 H0,认为总体分布与已知分布无显著差异。

单样本K-S检验

**目的:**利用样本数据推断总体是否服从某个理论分布(正态分布、均匀分布、指数分布和泊松分布)。

例如:周岁儿童的身高是否服从正态分布

基本假设: H 0 H_0 H0:总体分布与指定的理论分布无显著差异(总体服从指定的分布)

基本方法:

  • 根据用户指定检验的总体分布,构造出一理论的频数分布,并计算相应的累计频率.

  • 与样本在相同点的累计频率进行比较.如果相差较小,则认为样本所代表的总体符合指定的总体分布.

实例

正态分布检验统计量为0.051,渐进显著性为0.009,小于0.05,拒绝零假设,认为班上语文成绩不服从正态分布。

泊松分布检验统计量为0.038,渐进显著性为0.560,大于0.05,不能拒绝零假设,认为班上以为成绩服从泊松分布。

两独立样本的非参数检验

目的:由独立样本数据推断两总体的分布是否存在显著差异(或两样本是否来自同一总体)。

例如:两种不同生产工艺产品使用寿命分布的差异性

基本假设 H 0 H_0 H0:两总体分布无显著差异(两样本来自同一总体)

基本方法:

  1. 曼-惠特尼U检验(Mann-Whitney U):平均秩检验
  • 将两样本数据混合并按升序排序

  • 求出其秩

  • 对两样本的秩分别求平均

  • 如果两样本的平均秩大致相同,则认为两总体分布无显著差异

  1. k-s检验(保证有较大的样本数)
  • 将两样本混合并按升序排序

  • 分别计算两个样本在相同点上的累计频数和累计频率

  • 两个累计频率相减

  • 如果差距较小,则认为两总体分布无显著差异

  1. 游程检验(Wald-Wolfowitz runs)
  • 将两样本混合并按升序排序

  • 计算分组标志序列的游程数

  • 如果游程数较大,则说明是由于两类样本数据充分混合的结果,即:认为两总体分布无显著差异.

  • 如果两样本中有相同的样本值,则会使游程数发生变化.系统会作出提示.

多个独立样本的非参数检验

目的:检验多个独立样本之间是否具有相同分布,零假设是多个独立样本来自的总体分布无显著差异

基本方法

  1. Kruskal-Wallis H检验(推广的平均秩检验)
  • 将多个样本数混合并按升序排序,求出其秩

  • 对多个样本的秩分别求平均秩序

  • 如果各样本的平均秩大致相等,渐进显著性大于0.05,则认为多个总体分布无显著差异

  1. 相同中位数检验(median)
  • 判断多个总体是否是具有相同的中位数

  • 将多个样本数混合并按升序排序

  • 求出混合样本序列的中位数

  • 如果各独立样本中大于此中位数的个案数和小于此中位数的个案数大致相同,渐进显著性大于0.05,则认为总体有相同的中位数。

  1. Jonckheere-Terpstra检验(适用于行和列皆有序的R*C列联表)
  • 计算统计量的值J
  • 跟读统计量J值得到p值
  • 将p值与给定的显著性水平进行比较。若p值小于显著性水平,则拒绝零假设,接受备择假设。

两配对样本检验

基本方法

  1. 变化显著性检验(McNemar)(要求数据只能是二分值)
  • 将研究对象作为自身的对照者检验其“前后”的变化是否显著

    • 例如:领导培训前后,群众对他们的评价
  • 关心的是发生变化的两格中的频数变化.如果频数变化相当,则认为无显著变化.

  1. 正负符号检验(sign)
  • 将样本2的各样本值减去样本1的各样本值.如果差值为正,则记为正号;如果差值为负,则记为负号

  • 如果正号的个数与负号的个数相当,则认为无显著变化.否则,认为有显著变化

  • 例如:采用新训练方法前后的最好成绩比较

3.符号平均秩检验(wilcoxon)

正负符号检验只考虑了两总体数据变化的性质,而没有注意其变化的程度.符号平均秩检验注意到了这点

  • 将样本2的各样本值减去样本1的各样本值.如果差值为正,则记为正号;如果差值为负,则记为负号.

  • 将差值按升序排序,并求其秩.分别计算正号秩和负号秩总和

  • 如果正秩和负秩相当,认为正负变化程度相当,两总体无显著差异.

多匹配样本的非参数检验

基本方法

  1. 推广的平均秩检验(双向Friedman检验)
  • 将每个个案的变量值数据按升序排序,并求其秩

  • 求各样本的平均秩

  • 如果平均秩相当,则认为各总体分布无显著差异

2.谐同系数检验(Kendall W检验)

  • 谐同系数检验方法与推广的平均秩检验方法相同

  • 主要用在分析评判者的评判标准是否一致和公平

  • 通过谐同系数W进行判定.W表示了横向各样本数据之间相关的强弱程度,取值在0和1之间.越接近1,则表示相关性越强,即:评判者的评判标准一致

你可能感兴趣的:(数据分析)