SPSS操作分析—描述统计—描述
注意:定距变量没有绝对零点
定距变量的值之间可以比较大小,两个值的差有实际意义。但乘法是没有意义的。但是加减法有效。
例如华氏温度:10,20,30,华氏度40不是20的两倍热
定序变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,但各个定序变量的值之间没有确 切的间隔距离,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。例如文化程度可以分为大 学、高中、初中、小学、文盲
定类就是给数据定义一个类别。这种数据类型能将所研究的对象区分开。例如把性别分成男女两类
相关 身高和体重
相关分析用于分析两个变量之间的相关关系。在现实生活中,两个变量之间的相关关系往往会受到第三个变量的影响,从而使得相关系数不能真实地反映两变量之间的线性相关程度。
相关分析前,首先通过散点图了解变量间大致的关系情况。
如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
相关系数常见有三类,分别是:Pearson相关系数、Spearman等级相关系数和Kendall相关系数。person相关系数用于连续资料,Spearman相关系数用于等级资料
其中,最常使用的是Pearson相关系数;当数据不满足正态性时,则使用Spearman相关系数,Kendall相关系数用于判断数据一致性,比如裁判打分。斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广。
我们常说的相关系数指得就是皮尔逊(pearson)相关系数。
条件一:我们的样本数据必须满足正态分布或近正态分布,来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大(n>30),其样本均值都近似服从正态分布。
条件二:样本数据是连续的且数据之间的差异不能太大(不能包含离群点或异常值)。
条件三:每组样本之间相互独立。
条件四:皮尔逊相关系数有效的前提是两组数据(两个对象)之间呈线性关系。
使用EXCEL或者SPSS(对象很多)或者matlab绘制散点图来看是否存在线性关系,并看数据是否连续,有无离群点。
正态分布检验:雅克‐贝拉检验(Jarque‐Bera test) 和Shapiro‐wilk夏皮洛‐威尔克检验以及Q-Q图
1)JB检验:MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)。
JB检验是大样本检验(n>30)
注解:
h返回0或1,1表示拒绝原假设,0表示接受原假设,且H0:该随机变量服从正态分布,H1:该随机变量不服从正态分布。
p返回P值。
x是数据向量。
alpha是显著性水平,一般0.05。
12345
2)Shapiro‐wilk检验:Shapiro‐wilk检验是小样本检验(3≤n≤50)
SPSS操作。分析->描述统计->探索->图->含检验的正态图。得到P值,P值<0.05表示拒绝原假设即随机变量不服从正态分布。
3)Q-Q图:要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大)
MATLAB函数qqplot(x):x是数据向量。
偏相关 身高体重和年龄
利用SPSS做偏相关分析,需剔除的变量放在控制中
偏相关分析(Partial Correlations Analysis)也称净相关分析,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析将要探索的两变量间相关程度的过程。当控制变量个数为1时,偏相关阶数为1;当控制变量个数为2时,偏相关阶数为2。偏相关分析包括Pearson偏相关性分析、Spearman偏相关性分析和Kendall’s tau-b偏相关性分析。
一、统计量计算
1、偏相关系数
在分析两个变量X和Y间的相关时,当控制了变量Z的线性影响后,X和Y之间的偏相关系数定义为:
$$ r=\frac{r_{X Y}-r_{X Y} r_{X Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}} $$
其中,
r X Y r_{XY} rXY是指X和Y的相关系数;
r X Z r_{XZ} rXZ是指X和Z的相关系数;
r Y Z r_{YZ} rYZ是指Y和Z的相关系数。
2、假设检验
对样本来自的两总体间是否存在显著的偏相关关系进行检验判断,其基本步骤是:
**1 ** . 建立检验假设,确定检验水准
H 0 H_0 H0:两总体的偏相关系数为0
H 1 H_1 H1:两总体的偏相关系数不为0
α = 0.05
2. 计算检验统计量t
t = r n − q − 2 1 − r 2 t=r \sqrt{\frac{n-q-2}{1-r^{2}}} t=r1−r2n−q−2
其中,r为偏相关系数,n为样本量,q为偏相关阶数。统计量t服从自由度为n-q-2的t分布。
3. 确定P值,作出推断结论
按自由度为ν=*n-q-*2,查(t界值表),获得 P 值。
回归分析的类型
基本上,回归分析分为三种类型:
回归—线性 Y = 第一列 + 第二列 X (前提是相关性显著) 身高预测体重
回归评价指标:scikit-learn中文社区
无论哪种T检验,在进行检验之前都要做正态性检验,参考:SPSS在线_SPSSAU_t检验
T检验可以相对可靠地检查与假设的偏差,它具有以下前提:
数据是连续型的。
样本数据是从总体中随机抽样的。
存在方差齐性(即,各组中数据的变异性相似)。
分布接近正态。
对于双样本 t 检验,我们必须有独立的样本。如果样本不独立,使用配对 t 检验可能比较妥当。
SPSS输出中的方差的levene检验(方差齐性检验)
单样本 t 检验 | 双样本 t 检验 | 成对 t 检验 | |
---|---|---|---|
同义词 | Student t 检验 | 独立组 t 检验独立样本 t 检验等方差 t 检验合并 t 检验不等方差 t 检验 | 成组 t 检验非独立样本 t 检验 |
变量数 | 1个 | 2个 | 2个 |
变量类型 | 连续型测量值 | 连续型测量值分类型或名义型,用于定义组 | 连续型测量值分类型或名义型,用于定义组内的配对 |
检验目的 | 确定总体均值是否等于特定的值 | 确定两个不同组的总体均值是否相等 | 确定某个总体的成对测量值之间的差异是否为 0 |
示例:假设需要检验… | 一组人员的平均心率是否等于 65 | 两组人员的平均心率是否相同 | 一组人员在锻炼前和锻炼后的心率平均差异是否为 0 |
总体均值的估计值 | 样本平均值 | 每组样本平均值 | 成对测量值中的差异的样本平均值 |
总体标准差 | 未知,使用样本标准差 | 未知,使用每组样本标准差 | 未知,使用成对测量值中的差异的样本标准差 |
自由度 | 样本中的观测值数量减 1,即: n–1 | 每个样本中的观测值之和减 2,即: n1 + n2 – 2 | 样本中的成对观测值数量减 1,即: n–1 |
单样本T检验:一组数据和某个值的比较(某中学34级身高数据是否与两米这个数据点存在差异?)
1、建立假设
2、怀疑存在差异,但没有充足证据? 没有充分理由拒绝原假设,开始做假设检验,设计统计量。
3、计算样本观测值
4、构造拒绝域,设置显著性水平α = 0.05(常见显著性水平有5%,1%选择较低的显著性水平意味着对拒绝零假设的证据要求更严格,但同时也增加了犯第二类错误(即错误地接受零假设)的风险。)
例sig = .0340(P值0.01 原假设 H 0 H_0 H0:无差异(原假设通常表示“无效果”或“无差异”的状态。它是一种默认假设,表明样本观测结果仅由随机变异所引起,而非由我们正在测试的效应引起。例如,在药物效果测试中,零假设可能是“新药物与安慰剂无差异”。) 备择假设: H 1 H_1 H1:存在差异(备择假设与零假设对立,通常表示我们希望证明或支持的情况。它可能表明有显著效果、有差异或有特定方向的变化。继续刚才的例子,备择假设可能是“新药物比安慰剂有更好的效果”。) 5、做出判断存在95%的显著差异,接受原假设,拒绝备择假设。得出结论:存在差异 检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。 双侧检验:备择假设没有特定的方向性,形式为“≠”这种检验假设称为双侧检验 单侧检验:备择假设带有特定的方向性 形式为">“”<"的假设检验,称为单侧检验 "<"称为左侧检验 ">"称为右侧检验
独立样本T检验(需判断方差齐性,F分布):男女分别的数据,因此要定义1和2对文本数据进行转化(SPSS中‘值属性’可以进行该转化‘ 男女或者是12岁和14岁组的身高差异(两组数据源没有相关性:男、女)
应用配对 t 检验来检验成对测量值之间的差异,需要遵循以下假设:
相关样本T检验(配对样本T检验):用于样品的两个相关组之间的比较手段。在这种情况下,同一样本有两个值(即一对值)。
1、同一对象被试的前后侧(吃饭前考试、吃饭后考试是否存在差异?)
2、同一对象两个部位的数据 (判断静脉采血与末梢神经采血化验指标是否存在差异?)
3、同一样本两种方法检验的结果(判断传统化验手段与新型化验手段是否存在差异)
4、配对的两个对象分别接受进行两种处理后的数据(判断病人使用两种不同降压药对于血压的控制是否存在差异)
还有一种想法或假设,即数据组之间的差异是 0,示例:
方差分析的前提条件:
1、各样本组内观察值相互独立;
2、各样本服从正态分布;
3、各样本组内观察值总体方差相等,即方差齐性。
方差分析分类:单因素方差分析、双因素方差分析、多因素方差分析、事后多重比较、协方差分析、重复测量方差分析
灯光的亮度是否会影响工作效率:高中低三个水平的数据
双因素方差分析、多因素方差分析主要分为两种设计:被试内设计(Within-subjects factorial design)和被试间设计(Between-subjects factorial design)。
1.被试内设计(within-subject design):
每个被试者必须接受自变量的所有水平的处理。
说白了就是,被试者不能分组,每个被试者都要参加自变量的所有状态/水平中去
2.被试间设计(between-subject design):
每个被试者只接受一个自变量水平的处理
说白了就是,被试者得分组,自变量有几种状态就分几个组
3. 举例说明
3.1 实验目的
研究1天不浇花与100天不浇花,是否对花有影响
3.2 被试者
10盆相同的花,编号分别为1,2,3,4,5,6,7,8,9,10
3.3 被试内设计
1天不浇花 | 100天不浇花 |
---|---|
1 | 1 |
2 | 2 |
3 | 3 |
4 | 4 |
5 | 5 |
6 | 6 |
7 | 7 |
8 | 8 |
9 | 9 |
10 | 10 |
3.4 被试间设计
1天不浇花 | 100天不浇花 |
---|---|
1 | 2 |
3 | 4 |
5 | 6 |
7 | 8 |
9 | 10 |
变量都是数据且是a1b1a1b2…)。SPSS中因子名称就是自变量名词(工厂大小和灯光亮度),有多少个自变量输入几次,级别数就是自变量有多少种水平(大、小&高、中、低)。
1、采用两两比较
2、两个自变量做操作,一定要在选项中因子交互中选中OVERALL(部分版本SPSS交互作用需点击EM平均值)
3、绘图:以水平少的自变量作为水平轴,水平多的自变量作为单图
SPSS操作:一般线性模型—重复度量 工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低
SPSS操作:一般线性模型—单变量 工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低
工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低
拟合度(适合性)检验,又称1*C表的卡方检验,把一个变量分成若干类别(如性别分为男和女)。判断几个变量是否符合一定的比例,比如男女分别是10和20人,我们需要检验他是否符合1比3的比例;如果知识简单地看几个数据之间是否有显著性差异,则只需要把数据变量输入检验变量列表中即可。输入数据—加权数据(数据-加权)—卡方检验—分别输入期望值的比例。
视频参考:https://www.bilibili.com/video/BV1Pt411Q7HG/?spm_id_from=333.880.my_history.page.click&vd_source=5362a539250ae1154be84d8285d69e80