SPSS软件应用回顾:5月汇总

目录

1 数据测量级别(标度、名义、有序)

2 数据降维(主成分分析、因子分析)

2.1 主成分分析(PCA)

2.2 因子分析(Factor Analysis)

2.3 二者区别

3 二元罗吉斯回归

虚拟变量生成

4 两个变量的相关性如何分析?


1 数据测量级别(标度、名义、有序)

在SPSS中,数据可以被定义为不同的测量级别。下面是对于不同测量级别的解释:

  1. 标度(Scale):标度级别的变量是最高级别的变量类型。标度级别的变量具有明确的数值含义和可比较性。它们可以进行算术运算,如加法、减法、乘法和除法。例如,年龄、身高、体重等连续变量通常被定义为标度变量。标度变量可以是整数或实数。

  2. 名义(Nominal):名义级别的变量表示分类或离散的数据,没有固定的数值顺序或可比较性。名义变量中的值是用于区分不同类别或群组的标签。例如,性别、国籍、婚姻状况等都可以被定义为名义变量。名义变量的值通常用数字编码来表示不同的类别,但这些数字没有实际的数值含义。

  3. 有序(Ordinal):有序级别的变量表示具有固定顺序的分类数据,但没有固定的间隔或可比较性。有序变量中的值具有相对的顺序或等级,但它们之间的差异可能不是均匀的。例如,教育程度的分类(如小学、初中、高中、大学)可以被定义为有序变量。有序变量的值通常用数字编码来表示不同的等级,这些数字之间的差异可能没有实际的数值含义。

  在SPSS中,正确地指定变量的测量级别对于进行合适的统计分析非常重要。对于回归分析,自变量(预测变量)通常是标度级别的,而因变量(目标变量)可以是标度、名义或有序级别的,具体取决于研究的特点和分析的目的。

2 数据降维(主成分分析、因子分析)

主成分分析和因子分析是一种常见的数据降维技术,它们用于减少高维数据的复杂性,提取数据中重要的信息。

SPPS操作:分析-降维-因子

2.1 主成分分析(PCA)

主要是通过线性变换将原始的高维数据投影到低维子空间上,使得投影后的数据具有最大化的方差。换句话说,PCA 可以将具有相关性的多个变量转换为各自具有独立意义的主成分,从而减少冗余信息,同时保留尽可能多的原始数据的信息。

2.2 因子分析(Factor Analysis)

是一种基于统计模型的多元数据分析技术,它主要是通过隐变量的方法来探索数据的内在结构,它假设观测数据是由若干个潜在因子和随机误差构成的。因子分析方法借助协方差矩阵来分析各个变量之间的关系,然后将它们转变为因子的概念,通过因子的相关系数来描述这些变量之间的关系。这种技术可以帮助我们识别和理解数据中的潜在结构和模式,从而简化数据分析和解释。

2.3 二者区别

主成分分析和因子分析都是常用的数据降维方法,可以减少变量的数量,提取其中的主要信息。二者的区别在于主成分分析是侧重于提取影响变量总方差的成分,而因子分析则是侧重于将原先的变量分解为一些相互独立的因子。

  • 主成分分析中,最终确定的新变量是原始变量的线性组合,如原始变量为x1,x2,……,x3,经过坐标变换,将原有的p个相关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到。在诸多主成分Zi 中,Z1 在方差中占的比重最大,说明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱。
  • 因子分析是要利用少数几个公共因子去解释较多个要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分。公共因子是由所有变量共同具有的少数几个因子;特殊因子是每个原始变量独自具有的因子。

主成分分析和因子分析适用的数据类型和数据分布也有所不同。

3 二元罗吉斯回归

SPPS操作:分析-回归-二元logistic

二元罗吉斯回归是一种用于分类问题的统计模型。它基于一个sigmoid函数,将输入变量和一个二元分类变量之间的关系建模。具体来说,它通过使用最大似然方法来估计各个输入变量的系数,以及sigmoid函数中的截距项,从而预测输出变量的概率。

虚拟变量生成

虚拟变量指的是一个取值为0或1的二元变量,其作用在于将分类变量转换为数值变量,以便可以在回归分析中使用。在二元罗吉斯回归中,虚拟变量用于表示分类变量的各个类别。

  • 可在SPSS中使用代码生成,如下述代码将原始变量 "STYLE" 进行重新编码,将取值为 1 的观测值编码为 1,其他取值编码为 0,并将结果存储在名为 "Style1" 的新变量中。
RECODE STYLE(1=1)(ELSE=0)INTO Style1. 
EXECUTE.

SPSS软件应用回顾:5月汇总_第1张图片

4 两个变量的相关性如何分析?

SPSS相关性分析(分析-相关-双变量)可以用来研究两个变量之间的关系,包括线性关系和非线性关系。通过相关性分析,可以计算出两个变量之间的相关系数,从而了解它们之间的相关程度。相关性分析的结果可以用来确定两个变量是否具有强关联性,以及它们之间的方向和强度。相关性分析通常用来分析连续变量之间的关系。

而交叉表(也叫列联表或维度表,分析-描述统计-交叉表)是一种用于分析两个离散变量之间关系的统计工具。交叉表可以展示两个变量之间的关系,通过计算各种组合的频数和百分比,可以帮助我们理解它们之间的关系和趋势。交叉表在研究分类变量之间的关系时非常有用。

因此,SPSS相关性分析和交叉表是两种不同的分析工具,用于分析不同类型的变量之间的关系。相关性分析适用于研究连续变量之间的关系,而交叉表适用于研究离散变量之间的关系。

你可能感兴趣的:(一点点,学习)