在python做对应分析_案例6:SPSS--对应分析

一、对应分析简介

1.1 为什么引入对应分析?

在进行数据分析时遇到分类型数据,并且要研究两个分类变量之间的相关关系,基于均值、方差的分析方法不能够使用,所以通常从编制两变量的交叉表入手,使用卡方检验和逻辑回归等方法;但是当变量的类别或者变量数量两个以上时,再使用以上方法就很难直观揭示变量之间的关系,由此引入对应分析。

1.2 什么是对应分析?

对应分析的实质就是将交叉表里面的频数数据作变换(通过降维的方法)以后,利用图示化(散点图)的方式,从而将抽象的交叉表信息形象化,直观地解释变量的不同类别之间的联系,适合于多分类型变量的研究。

二、 对应方法简介

1、简单对应分析(一般只涉及两个分类变量)

简单对应分析是分析某一研究事件两个分类变量间的关系,其基本思想以点的形式在较低维的空间中表示联列表的行与列中各元素的比例结构,可以在二维空间更加直观的通过空间距离反映两个分类变量间的关系。属于分类变量的典型相关分析。

2、多重对应分析(多于两个分类变量)

简单对应分析是分析两个分类变量间的关系,而多重对应分析则是分析一组属性变量之间的相关性。与简单对应分析一样,多重对应分析的基本思想也是以点的形式在较低维的空间中表示联列表的行与列中各元素的比例结构。

3、数值变量对应分析or均值对应分析(前两种均为分类变量的对应分析,较为常用)

与简单对应分析不同,由于单元格内的数据不是频数,因此不能使用标准化残差来表示相关强度,而只能使用距离(一般使用欧氏距离)来表示相关强度。

对应分析时注意事项对应分析不能用于相关关系的假设检验。它虽然可以揭示变量间的联系,但不能说明两个变量之间的联系是否显著,因而在做对应分析前,可以用卡方统计量检验两个变量的相关性。

对应分析输出的图形通常是二维的,这是一种降维的方法,将原始的高维数据按一定规则投影到二维图形上。而投影可能引起部分信息的丢失。

对极端值敏感,应尽量避免极端值的存在。如有取值为零的数据存在时,可视情况将相邻的两个状态取值合并。

原始数据的无量纲化处理。运用对应分析法处理问题时,各变量应具有相同的量纲(或者均无量纲)。

三、案例分析(后附源文件)

3.1 简单对应分析

举个例子

需求:大脑疾病可能会出现壳核、尾状核、苍白球、丘脑、中脑、脑桥、小脑七个部位的损伤,并且可能会出现构音障害、动作迟缓、震颤、肌张力障碍等症状,寻找这些症状具体与哪个部位损伤关联最大。如下表所示

根据数据的特征(“部位”“症状”两变量的交叉表分析其相关性)可选用简单对应分析

操作步骤:

做简单对应分析(只有两个分类变量)之前,需要对交叉表进行卡方检验,只有卡方检验结果显示两个分类变量之间具有相关性,才有必要作对应分析,如果两个分类变量之间没有相关关系,也就失去作对应分析的必要了。

【数据】--【个案加权】

【分析】--【降维】--【对应分析】

报告分析:

3.2 多重对应分析

需求:在3.1所示的基础上加上性别和年龄两个因素考虑,即四个变量:部位,症状,性别,年龄,进行相关分析

根据数据的特征(多于两个变量的分类型数据)使用多重对应分析方法

操作步骤:

【分析】--【降维】--【最有标度】

报告分析:

3.3 数值变量对应分析(均值对应分析)

需求:有某班级同学的期末考试成绩,比较各个同学的考试情况。

分析思路:从数据形式可知,这是原始数据汇总表,因此无法直接使用对应分析对话框进行分析。解决方法有两个

第一个方法是将数据转换成频数形式,做加权处理,然后进行分析。

第二种则是用Syntax变成语言,将数据读入软件,这种方法简单快捷,本案例使用第二种方法。

根据数据特征(考试成绩为定距变量)采用均值对应分析

操作步骤:

下面这一步操作很重要哦

报告分析:

点击获取案例源文件(不要忘记点赞哟(#^.^#))

链接:https://pan.baidu.com/s/1ArKat5c7J7K49-OSRBDulA​pan.baidu.com

密码:i64i

待更新...

你可能感兴趣的:(在python做对应分析)