数学建模—SPSS学习笔记

1、描述统计(描述一组数据的集中和离散情况)

SPSS操作分析—描述统计—描述

  • 度量标准:度量(定距变量 Interval Data)【可以分类( = 和 ≠ ),可以排序(> 和 <),可以(+ 和 - ),但不能(× 和 ÷ )】

注意:定距变量没有绝对零点

定距变量的值之间可以比较大小,两个值的差有实际意义。但乘法是没有意义的。但是加减法有效。

​ 例如华氏温度:10,20,30,华氏度40不是20的两倍热

  • 序号(定序变量 Ordinal Data):【可以分类( = 和 ≠ ),可以排序(> 和 <),但不能(+ 和 - )】

​ 定序变量的值不仅能够代表事物的分类,还能代表事物按某种特性的排序,但各个定序变量的值之间没有确 切的间隔距离,只能排列出它们的顺序,而不能反映出大于或小于的数量或距离。例如文化程度可以分为大 学、高中、初中、小学、文盲

  • 名义(定类变量 Norminal Data ) e . g . e.g. e.g.男女【可以分类( = 和 ≠ ),但不能排序】

​ 定类就是给数据定义一个类别。这种数据类型能将所研究的对象区分开。例如把性别分成男女两类

2、相关分析
  • 相关 身高和体重

    • 相关分析用于分析两个变量之间的相关关系。在现实生活中,两个变量之间的相关关系往往会受到第三个变量的影响,从而使得相关系数不能真实地反映两变量之间的线性相关程度。

    • 相关分析前,首先通过散点图了解变量间大致的关系情况。

      如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。数学建模—SPSS学习笔记_第1张图片

      数学建模—SPSS学习笔记_第2张图片

      相关系数常见有三类,分别是:Pearson相关系数、Spearman等级相关系数和Kendall相关系数。person相关系数用于连续资料,Spearman相关系数用于等级资料

      其中,最常使用的是Pearson相关系数;当数据不满足正态性时,则使用Spearman相关系数,Kendall相关系数用于判断数据一致性,比如裁判打分。斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广。

      1 pearson相关系数使用条件和检验条件
      1) 使用和检验条件

      我们常说的相关系数指得就是皮尔逊(pearson)相关系数。
      条件一:我们的样本数据必须满足正态分布或近正态分布来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大(n>30),其样本均值都近似服从正态分布
      条件二:样本数据是连续的且数据之间的差异不能太大(不能包含离群点或异常值)。
      条件三:每组样本之间相互独立
      条件四:皮尔逊相关系数有效的前提是两组数据(两个对象)之间呈线性关系

      2) 散点图检验

      使用EXCEL或者SPSS(对象很多)或者matlab绘制散点图来看是否存在线性关系,并看数据是否连续,有无离群点。

      3) 正态分布检验

      正态分布检验:雅克‐贝拉检验(Jarque‐Bera test) 和Shapiro‐wilk夏皮洛‐威尔克检验以及Q-Q图

      1)JB检验:MATLAB中进行JB检验的语法:[h,p] = jbtest(x,alpha)。
      JB检验是大样本检验(n>30

      注解:
      h返回011表示拒绝原假设,0表示接受原假设,且H0:该随机变量服从正态分布,H1:该随机变量不服从正态分布。
      p返回P值。
      x是数据向量。
      alpha是显著性水平,一般0.0512345
      

      2)Shapiro‐wilk检验:Shapiro‐wilk检验是小样本检验(3≤n≤50
      SPSS操作。分析->描述统计->探索->图->含检验的正态图。得到P值,P值<0.05表示拒绝原假设即随机变量不服从正态分布。

      3)Q-Q图:要利用Q‐Q图鉴别样本数据是否近似于正态分布,只需看Q‐Q图上的点是否近似地在一条直线附近。(要求数据量非常大
      MATLAB函数qqplot(x):x是数据向量。

  • 偏相关 身高体重和年龄

    • 利用SPSS做偏相关分析,需剔除的变量放在控制中

    • 偏相关分析(Partial Correlations Analysis)也称净相关分析,是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析将要探索的两变量间相关程度的过程。当控制变量个数为1时,偏相关阶数为1;当控制变量个数为2时,偏相关阶数为2。偏相关分析包括Pearson偏相关性分析、Spearman偏相关性分析和Kendall’s tau-b偏相关性分析。

    • 一、统计量计算

      1、偏相关系数

      • 在分析两个变量XY间的相关时,当控制了变量Z的线性影响后,XY之间的偏相关系数定义为:

      • $$ r=\frac{r_{X Y}-r_{X Y} r_{X Z}}{\sqrt{\left(1-r_{YZ}^{2}\right)\left(1-r_{X Z}^{2}\right)}} $$

      • 其中,
        r X Y r_{XY} rXY是指X和Y的相关系数;
        r X Z r_{XZ} rXZ是指X和Z的相关系数;
        r Y Z r_{YZ} rYZ是指Y和Z的相关系数。

      • 2、假设检验

        • 对样本来自的两总体间是否存在显著的偏相关关系进行检验判断,其基本步骤是:

          **1 ** . 建立检验假设,确定检验水准

          H 0 H_0 H0:两总体的偏相关系数为0

          H 1 H_1 H1:两总体的偏相关系数不为0

          α = 0.05

          2. 计算检验统计量t
          t = r n − q − 2 1 − r 2 t=r \sqrt{\frac{n-q-2}{1-r^{2}}} t=r1r2nq2
          其中,r为偏相关系数,n为样本量,q为偏相关阶数。统计量t服从自由度为n-q-2t分布。

          3. 确定P值,作出推断结论

          按自由度为ν=*n-q-*2,查(t界值表),获得 P 值。

3、回归分析

回归分析的类型

基本上,回归分析分为三种类型

  • 简单线性回归分析:回归模型有一个自变量和一个因变量,它们呈线性相关。
  • 多元线性回归分析:两个或多个自变量与因变量线性相关。
  • 非线性回归分析:使用非线性函数对自变量和因变量之间的关系进行建模

回归—线性 Y = 第一列 + 第二列 X (前提是相关性显著) 身高预测体重

回归评价指标:scikit-learn中文社区

4、差异分析
4、1 T检验(σ未知)(两组数据的检验)
  • 无论哪种T检验,在进行检验之前都要做正态性检验,参考:SPSS在线_SPSSAU_t检验

  • T检验可以相对可靠地检查与假设的偏差,它具有以下前提

    • 数据是连续型的。

    • 样本数据是从总体中随机抽样的。

    • 存在方差齐性(即,各组中数据的变异性相似)。

    • 分布接近正态。

    • 对于双样本 t 检验,我们必须有独立的样本。如果样本不独立,使用配对 t 检验可能比较妥当。

  • SPSS输出中的方差的levene检验(方差齐性检验)

  • 单样本 t 检验 双样本 t 检验 成对 t 检验
    同义词 Student t 检验 独立组 t 检验独立样本 t 检验等方差 t 检验合并 t 检验不等方差 t 检验 成组 t 检验非独立样本 t 检验
    变量数 1个 2个 2个
    变量类型 连续型测量值 连续型测量值分类型或名义型,用于定义组 连续型测量值分类型或名义型,用于定义组内的配对
    检验目的 确定总体均值是否等于特定的值 确定两个不同组的总体均值是否相等 确定某个总体的成对测量值之间的差异是否为 0
    示例:假设需要检验… 一组人员的平均心率是否等于 65 两组人员的平均心率是否相同 一组人员在锻炼前和锻炼后的心率平均差异是否为 0
    总体均值的估计值 样本平均值 每组样本平均值 成对测量值中的差异的样本平均值
    总体标准差 未知,使用样本标准差 未知,使用每组样本标准差 未知,使用成对测量值中的差异的样本标准差
    自由度 样本中的观测值数量减 1,即: n–1 每个样本中的观测值之和减 2,即: n1 + n2 – 2 样本中的成对观测值数量减 1,即: n–1

  • 单样本T检验:一组数据和某个值的比较(某中学34级身高数据是否与两米这个数据点存在差异?)

    1、建立假设

    2、怀疑存在差异,但没有充足证据? 没有充分理由拒绝原假设,开始做假设检验,设计统计量。

    3、计算样本观测值

    4、构造拒绝域,设置显著性水平α = 0.05(常见显著性水平有5%,1%选择较低的显著性水平意味着对拒绝零假设的证据要求更严格,但同时也增加了犯第二类错误(即错误地接受零假设)的风险。)

    例sig = .0340(P值0.01

    原假设 H 0 H_0 H0:无差异(原假设通常表示“无效果”或“无差异”的状态。它是一种默认假设,表明样本观测结果仅由随机变异所引起,而非由我们正在测试的效应引起。例如,在药物效果测试中,零假设可能是“新药物与安慰剂无差异”。)

    备择假设: H 1 H_1 H1:存在差异(备择假设与零假设对立,通常表示我们希望证明或支持的情况。它可能表明有显著效果、有差异或有特定方向的变化。继续刚才的例子,备择假设可能是“新药物比安慰剂有更好的效果”。)

    5、做出判断存在95%的显著差异,接受原假设,拒绝备择假设。得出结论:存在差异


    检验方式分为两种:双侧检验和单侧检验。单侧检验又分为两种:左侧检验和右侧检验。

    双侧检验:备择假设没有特定的方向性,形式为“≠”这种检验假设称为双侧检验

    单侧检验:备择假设带有特定的方向性 形式为">“”<"的假设检验,称为单侧检验 "<"称为左侧检验 ">"称为右侧检验


  • 独立样本T检验(需判断方差齐性,F分布):男女分别的数据,因此要定义1和2对文本数据进行转化(SPSS中‘值属性’可以进行该转化‘ 男女或者是12岁和14岁组的身高差异(两组数据源没有相关性:男、女)


    应用配对 t 检验来检验成对测量值之间的差异,需要遵循以下假设:

    • 受试者必须是独立的。一个受试者的测量值不影响任何其他受试者的测量值。
    • 每一对测量值必须来自同一个受试者。例如,在上面的例子中,某个抽烟者“之前”和“之后”的体重必须是同一个人的体重。
    • 测量的差异是呈正态分布的。
  • 相关样本T检验(配对样本T检验):用于样品的两个相关组之间的比较手段。在这种情况下,同一样本有两个值(即一对值)。

    • 1、同一对象被试的前后侧(吃饭前考试、吃饭后考试是否存在差异?)

    • 2、同一对象两个部位的数据 (判断静脉采血与末梢神经采血化验指标是否存在差异?)

    • 3、同一样本两种方法检验的结果(判断传统化验手段与新型化验手段是否存在差异)

    • 4、配对的两个对象分别接受进行两种处理后的数据(判断病人使用两种不同降压药对于血压的控制是否存在差异)

    • 还有一种想法或假设,即数据组之间的差异是 0,示例:

      • 一组干性皮肤的人群在其一只手臂上使用含有药物的乳液,而在另一只手臂上使用不含药物的乳液。一周后,医生会测量每只手臂上的发红程度。我们想知道,含有药物的乳液是否比不含药物的乳液效果更好。我们要弄清楚,涂有含药乳液的手臂上的发红程度是否比另一只手臂上的红发红程度轻。由于我们有每个人测量前后的数值,因此可以找到差异。然后,我们将检验均值差异是否为 0。
      • 我们测量一项戒烟计划中人们的体重。对于每个人,我们有他们在计划开始时和结束时的体重。我们想知道,在该计划中,人们的平均体重变化是否为 0。
      • 讲师让学生参加了一次考试,第二天又让学生参加了基于相同学习材料的另一次考试。讲师想知道,这两次考试难度是否相等。我们计算每个学生考试分数的差异。我们将检验均值差异是否为 0。

4、2 方差分析(三组数据及以上的检验)参考:方差分析一文汇总整理(全) - 知乎 (zhihu.com)

方差分析的前提条件:

​ 1、各样本组内观察值相互独立;

​ 2、各样本服从正态分布;

​ 3、各样本组内观察值总体方差相等,即方差齐性。

方差分析分类:单因素方差分析、双因素方差分析、多因素方差分析、事后多重比较、协方差分析、重复测量方差分析


  • 单因素方差分析(因变量为工作效率,自变量—因子为灯光亮度):一个自变量两个以上水平(两个水平用T检验) 比较均值单一因素

灯光的亮度是否会影响工作效率:高中低三个水平的数据


双因素方差分析、多因素方差分析主要分为两种设计:被试内设计(Within-subjects factorial design)和被试间设计(Between-subjects factorial design)。

1.被试内设计(within-subject design):

每个被试者必须接受自变量的所有水平的处理。
说白了就是,被试者不能分组,每个被试者都要参加自变量的所有状态/水平中去

2.被试间设计(between-subject design):

每个被试者只接受一个自变量水平的处理
说白了就是,被试者得分组,自变量有几种状态就分几个组

3. 举例说明

3.1 实验目的

研究1天不浇花与100天不浇花,是否对花有影响

3.2 被试者

10盆相同的花,编号分别为1,2,3,4,5,6,7,8,9,10

3.3 被试内设计

1天不浇花 100天不浇花
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10

3.4 被试间设计

1天不浇花 100天不浇花
1 2
3 4
5 6
7 8
9 10

  • 两个自变量一个因变量的被试内设计 几种水平结合就是几列变量(每列

变量都是数据且是a1b1a1b2…)。SPSS中因子名称就是自变量名词(工厂大小和灯光亮度),有多少个自变量输入几次,级别数就是自变量有多少种水平(大、小&高、中、低)。

1、采用两两比较

2、两个自变量做操作,一定要在选项中因子交互中选中OVERALL(部分版本SPSS交互作用需点击EM平均值)

3、绘图:以水平少的自变量作为水平轴,水平多的自变量作为单图

SPSS操作:一般线性模型—重复度量 工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低

  • 两个自变量一个因变量的被试间设计 输入三列变量(两列变量为定义(固定因子—大小和高中低),一列变量为数据(因变量—效率))

SPSS操作:一般线性模型—单变量 工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低

  • 两个自变量的混合实验设计 变量输入时是以上两种方法的结合 一般线性模型-重复度量

工厂的大小和灯光的亮度是否会影响工作效率:大小*高中低

  • 完成方差分析后还需进行方差检验,主要包括方差齐性检验、多重比较检验。
4、3卡方检验

​ 拟合度(适合性)检验,又称1*C表的卡方检验,把一个变量分成若干类别(如性别分为男和女)。判断几个变量是否符合一定的比例,比如男女分别是10和20人,我们需要检验他是否符合1比3的比例;如果知识简单地看几个数据之间是否有显著性差异,则只需要把数据变量输入检验变量列表中即可。输入数据—加权数据(数据-加权)—卡方检验—分别输入期望值的比例。

视频参考:https://www.bilibili.com/video/BV1Pt411Q7HG/?spm_id_from=333.880.my_history.page.click&vd_source=5362a539250ae1154be84d8285d69e80

你可能感兴趣的:(数学建模—SPSS学习笔记,学习,笔记,数学建模)