实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。表达互相联系事物的依存情况有两种方式:相关关系和回归关系(函数关系)。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
目录
一、相关关系分类
二、二元变量相关系数
1、Pearson简单相关系数
2、Spearman等级相关系数
3、Kendall’s tau-b等级相关系数
三、基于spss的具体操作
四、参考文献:
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。
皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
皮尔逊相关系数的计算公式:
使用条件:
两个变量都是由测量获得的连续型数据,即等距或等比数据。
两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。
必须是成对的数据,并且每对数据之间是相互独立的。
两个变量之间呈线性关系,一般用描绘散点图的方式来观察。
Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。
Ui是变量X排序后的秩;
Vi是变量Y排序后的秩;
n是样本容量。
系数特点:
如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;
如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;
如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;
Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。
当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。
其中,U为一致对数目;
V为非一致对数目;
n为样本容量。
系数特点:
如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;
如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;
如果相关关系弱,则U,V大致相等,趋于0;
举例:通过分析三十个样本地区的家庭经营收入x2与衣着支出y2关系,判断其具有相关性。(这里由常理知识就可以判断出两者之前肯定是具有相关性的)
选择【分析】-【相关】-【双变量】菜单-勾选全部相关系数N、K、S-【选项】勾选平均值,叉积偏差和协方差
结果分析:
1、描述统计。显示均值和标准差,以及纳入计算的个案数目。
2、相关性分析。Pearson相关性是以交叉表格的形式呈现的。其中相关系数P为0.387,说明这两个变量是正相关的。且显著性P值sig为0.034小于0.05,所以认为两个变量具有显著相关性。
3、非参数相关性分析(K、S相关性)。 所得相关系数分析同上。
最终三种结果的具体数据虽然不同,但是它们的结论是一样的。
[1]微信公众号生活统计学:SPSS分析技术:两变量的相关分析;对于薪水,学历与工作经验,哪个更重要?
[2]微信公众号生活统计学:数据分析技术:相关关系分析;说“你好我也好”,这不足够