SPSS描述性统计分析

频数分析

  • 频数分布表是描述性统计中最常用的方法之一。它主要能够了解变量取值的状况,对把握数据分布特征非常有用。例如,了解某班学生考试的学习成绩、了解某地区居民的收入水平等都可以借助于频数分析。
  • 输出结果
  • 基本统计结果输出
  • 频数分析表
  • 直方图

描述统计分析

1 目的与实现方式

  • 统计分析的目的是研究总体的数量特征。为实现上述分析,往往采用两种方式实现:第一,数值计算,即计算常用的基本统计量的值,通过数值来准确反映数据的基本统计特征;第二,图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点。通常,这两种方式都是混合使用的。

2 统计量

  • 样本中的每个个体均相互独立且与总体有相同的分布。不含未知参数的样本的函数称为统计量。
    在SPSS中,可供选择的常用统计量有:
    (1)反映集中趋势的统计量
      ① 均值(Mean):样本中各观测值的算
    术平均值。
    ② 中位数(Median):样本中各观测值处于中间位置的数值。如n为偶数,中位数是处于中间位置的两个数的算术平均值。有时中位数也被定义为各组观侧值的中间点的算术平均值。
      ③ 众数(Mode):与最大的ni对应的xi 。如有多个,一般取i最小的一个。
      ④ 和(Sum):样本观测值之和。
      (2)反映离散程度的统计量
      ① 标准差(Std. Deviation):各样本观测值xi与样本均值 差的平方和除n-1后的算术平方根。
      ② 方差(Variance):标准差的平方。
       ③ 最小值(Minimum):样本观测值中的最小值。
       ④ 最大值(Maximum):样本观测值中的最大值。
      ⑤ 极差(Range):最大值与最小值之差。
      ⑥ 均值的标准误差(S. E. Mean):各样本观测值xi与样本均值 差的平方和除以n后的算术平方根。
      (3)反映分布曲线形状和位置的统计量
      ① 偏度系数(Skewness):系数越大,曲线
    的对称性越差。
      ② 偏度系数的标准误差(Std. Error of Skewness)
      ① ②是反映分布曲线是否具有对称性的定量指标。
      ③ 峰度系数(Kurtosis):系数越大,曲线越陡峭。
      ④ 峰度系数的标准误差(Std. Error of Kurtosis)
      ③ ④是反映分布曲线是否陡峭的定量指标。

探索性分析

使用目的

  • 探索性数据分析(Exploratary Data Analysis,简称EDA)的基本思想是从数据本身出发,不拘泥于模型的假设而采用非常灵活的方法来探讨数据分布的大致情况,也可以为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。

主要内容

  • 一般来说,进行探索性分析主要考察以下内容。
    (1)检查数据是否有错。过大或过小的数据均可能是异常值、影响点或错误值。要检查这样的数据,并分析原因,然后决定是否从分析中剔除这些数据。
    (2)获得数据分布特征。很多统计方法模型对数据的分布有要求,如方差分析就需要数据服从正态分布。
    (3)对数据的初步观察,发现一些内在规律。
  • SPSS中的探索性分析过程用于计算指定变量的探索性统计量和有关的图形。它既可以对观测量整体分析,也可以进行分组分析。从这个过程可以获得箱线图、茎叶图、直方图、各种正态检验图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据进行变换,并表明和检验连续变量的数值分布情况。

交叉列联表分析

使用目的

  • 列联表是指一个频率对应两个变量的表(一个变量用来对行分类,第二个变量用来对列分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存在一定的相关性进行分析。

行列变量间关系的分析

  • 列联表的频数分布不可能用来直接确定行、列变量之间的关系及关系的强弱。令人感兴趣的二维列联表的检验问题是行、列变量的独立性检验。
  • 独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、列变量之间是否彼此独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要求。
  • 所以,一般采用的检验方法是卡方(χ2)检验,它的计算公式为:
    SPSS描述性统计分析_第1张图片
  • 其中,f0表示实际观察频数,fe表示期望频数。

你可能感兴趣的:(数据分析)