周末好呀!我是一只正在迭代的分析狮天天。
夏末秋初,真是学习的好时光,今日起床后决定加更,分享两个变量之间的相关分析,欢迎追番~
这是一个SPSS实战系列的分享,应用场景是问卷调研中的数据分析,适用于有一定统计学及软件操作基础的同学。
统计学
发现事物之间的关联性,是人类解释自我和世界的重要方式,最近不顺跟什么相关?水逆?姨妈期?还是……?
在市场研究中,相关分析几乎是每个项目都会用到的分析方法,一般会通过统计图表来展示两个变量之间的相关性,比如自变量不同城市、不同人群与因变量行为、态度。
为了说明变量之间相关性的强弱,会用到统计学上的相关分析。
1
变量的测量层次有定类、定序、定距3种,常见两个变量的相关分析组合有以下6种,对应不同的相关系数算法。
根据我总结的数据分析黄金三步法,在相关分析中,最重要的就是:
第一步,区分每个场景下,应该选择哪个相关系数。
作为贴心学姐,我总结了下面的SPSS应用对照表,对于大部分做商业分析、社会科学研究的小伙伴来说,可以放心食用,并建议收藏。
SPSS相关系数对照表结合SPSS交叉表-统计的分类(这里缺斯皮尔曼相关,在相关分析的菜单里有),可以看出,当两组中有一个变量的测量层次偏低时,相关系数的选择都是降级处理。比如定序-定距,就当成两个定序变量处理。
本文末尾有参考书,能力者可以自行研究每种方法的原理及优劣性。
2
做相关分析,对数据的解读也特别重要。
当变量的测量层次在定序以上时,有方向性,比如越来越高,越来越满意等,相关系数的取值在-1至1之间,大于零为正相关,小于零为负相关。
定类变量没有方向,所以取值在0-1之间。
不同背景的分析师,给出的相关系数区间也不同。
从绝对值看,一般情况下,0.2、0.4、0.7是几个关键节点(阈值),或者是0.3、0.5、0.8几个节点,可以解读为:
特殊情况是Eta,取值0-1,用来解释方差,E2可以解读为自变量能够解释因变量**%的变异。
下面,通过两个常用的场景展示一下相关分析的套路,大家可以举一反三啊。
3
1. 连续变量的相关分析基于线性相关,这点很重要!所以一定要提前画散点图,确认是线性相关;
2. 极端值影响很大,要提前处理;
3. 正态性不是非常严格,差不多就行了。
【案例】用一个教程中的案例,消费年龄和信心指数的相关
图形-图表构建器-散点图,选带拟合线的散点图,从输出的报告看,符合线性关系。
分析-相关-双变量
服从正态,就选皮尔逊相关系数,不服从或有定序,就选斯皮尔曼。
输出报告:两个变量的相关系数是-0.219,年龄和信心指数微弱相关。
两个**表示,由样本推及总体,在0.01的水平下,相关性显著。1个*表示是0.05水平。
如果是斯皮尔曼相关系数,数据呈现和解读方式类似。
4
在市场研究中,因为很多自变量是定类或定序的,比如性别、年龄段、收入段、区域,以及聚类后的分群,所以分类变量的相关分析更为常用。
【案例】这是一项中国大陆游客赴某国旅行意愿的市场调研,变量X是旅游成熟度1-3级,变量Y是期望的参团方式,分为四类。
预先可以用堆积条形图看一下相关情况。
Tips:用计数画条形图,然后双击图表,在图形编辑器里点红框的缩放至100%,就是堆积条形图了。
感觉中高级游客在参团方式的分布上会有差异,零出国经验和初级差异不太明显。
分析-描述统计-交叉表
先看成熟度是三类的相关分析
把两个变量点进来,进入统计选项卡,选相应的相关系数算法
输出报告,对称测量,即不确定谁自变量,谁是因变量。列联系数值0.198,说明不太相关。
后面的定向测量,确定了谁是自变量、谁是因变量。一组是lambda值,一组是tau-y值,在社会科学研究中,一般认为tau-y更敏感一些,但两组值几乎不相关。
分类变量由样本推及总体的相关性检验,需要卡方检验等方法,我将在下一篇分享。
See you~
参考书
软件版本 | SPSS 25.0
题图 | Pexels
动图设计 | 赤道裴