学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数

目录

  • 学习目的
  • 软件版本
  • 原始文档
  • 基础概念
    • 皮尔逊相关系数
      • 基本假设(适用条件):
      • 系数的范围及意义
      • 实例
        • 1. 读数据:
        • 2.正态性检验:
        • 3.异常值检验(体重):
        • 4.分析:
    • 斯皮尔曼相关系数
      • 基本假设(适用条件):
    • 肯德尔tau-b相关系数
      • 基本假设(适用条件):
  • 相关性系数的比较
    • 皮尔森相关与Spearman和Kendall相关
    • Spearman相关与Kendall相关

学习目的

SPSS中双变量相关性分析系数

软件版本

IBM SPSS Statistics 26。

原始文档

三个相关系数的注意事项
Pearson/Spearman/Kendallta三大相关系数怎么选?怎么计算?
《小白爱上SPSS》课程第18讲数据
Statistical functions (scipy.stats)包-scipy.stats.pearsonr
Statistical functions (scipy.stats)包-scipy.stats.spearmanr
Statistical functions (scipy.stats)包-scipy.stats.kendalltau
百度百科:spearman相关系数
相关性检验-Kendall’s Tau-b相关系数
Pearson’s Correlation 皮尔逊相关性分析详细操作

基础概念

皮尔逊相关系数

Pearson相关系数是传统的统计分析工具,应用广泛。Pearson相关系数公式:
学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第1张图片
但其有明显的理论局限,即只能度量线性的相关性,隐含地做了高斯性假设(正态分布、独立性假、方差齐性),使其无法在非线性和非高斯的情况下应用。

基本假设(适用条件):

每个观察值应具有一对值。比较的两个变量必须来源于同一个总体。
每个变量应该是连续的。
每个变量应为正态分布。
应该没有异常值。

系数的范围及意义

皮尔逊相关系数的范围是位于[-1,1]之间。相关系数展示了方向性:
如果相关系数接近1,说明两个变量之间呈较高的正相关性;
如果相关系数接近-1,说明两个变量之间呈较高的负相关性;
如果相关系数接近0,说明两个变量之间彼此独立,没有相关性。

实例

1. 读数据:
GET 
  FILE='E:\E盘备份\recent\小白爱上SPSS\小白数据\第十八讲:线性相关分析.sav'. 
2.正态性检验:
EXAMINE VARIABLES=体重 肺活量
  /PLOT HISTOGRAM NPPLOT /*若无此行,则不输出正态性检验表*/
  /COMPARE GROUPS 
  /STATISTICS DESCRIPTIVES 
  /CINTERVAL 95 
  /MISSING LISTWISE 
  /NOTOTAL.

学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第2张图片

学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第3张图片
经S-W(夏皮洛-威尔克)检验,体重、肺活量数据的p值分别为0.490和0.465,均大于0.05,无统计学意义,支持原假设,可认为两组数据符合正态分布。

3.异常值检验(体重):
USE ALL. 
COMPUTE filter_$=(体重 <= (49.308+3*5.3245)  &  体重 >= (49.308-3*5.3245)). 
VARIABLE LABELS filter_$ '体重 <= (49.308+3*5.3245)  &  体重 >= (49.308-3*5.3245) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

无异常值:
学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第4张图片
异常值检验(肺活量):

USE ALL. 
COMPUTE filter_$=(肺活量 <= (2.9342+3*.43383)  &  肺活量 >= (2.9342-3*.43383)). 
VARIABLE LABELS filter_$ '肺活量 <= (2.9342+3*.43383)  &  肺活量 >= (2.9342-3*.43383) (FILTER)'. 
VALUE LABELS filter_$ 0 'Not Selected' 1 'Selected'. 
FORMATS filter_$ (f1.0). 
FILTER BY filter_$. 
EXECUTE.

无异常值:
学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第5张图片

4.分析:
CORRELATIONS 
  /VARIABLES=体重 肺活量 
  /PRINT=TWOTAIL NOSIG  /*显著性检验:双尾*/
  /STATISTICS DESCRIPTIVES /*选项中选定:平均值、标准偏差*/
  /MISSING=PAIRWISE	 /*皮尔逊*/.

学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第6张图片
皮尔逊相关性分析结果显示,P值显著性为0.001。P值小于0.05,说明示例的两个变量相关。相关性系数为0.828,离1比较近,也说明呈较高的正相关性。

斯皮尔曼相关系数

斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。
对于样本容量为n的样本,n个原始数据被转换成等级数据,相关系数ρ为:
学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第7张图片
斯皮尔曼相关系数表明X(独立变量)和Y(依赖变量)的相关方向。如果当X增加时,Y趋向于增加,斯皮尔曼相关系数则为正。如果当X增加时,Y趋向于减少,斯皮尔曼相关系数则为负。斯皮尔曼相关系数为零表明当X增加时Y没有任何趋向性。当X和Y越来越接近完全的单调相关时,斯皮尔曼相关系数会在绝对值上增加。当X和Y完全单调相关时,斯皮尔曼相关系数的绝对值为1。完全的单调递增关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是同号。完全的单调递减关系意味着任意两对数据Xi,Yi和Xj,Yj,有Xi−Xj和Yi−Yj总是异号。
斯皮尔曼相关系数经常被称作"非参数"的。这里有两层含义。首先,当X和Y的关系是由任意单调函数描述的,则它们是完全皮尔逊相关的。与此相应的,皮尔逊相关系数只能给出由线性方程描述的X和Y的相关性。其次,斯皮尔曼不需要先验知识(也就是说,知道其参数)便可以准确获取XandY的采样概率分布。

基本假设(适用条件):

两对数据的观察是独立的。
应按序数,区间或比率测量两个变量。
假定两个变量之间存在单调关系。
皮尔逊Pearson相关系数使用前提条件中,任何一个条件不满足时可以考虑使用该系数;
Spearman与Pearson相关系数计算很类似,只是Spearman计算需要将两个变量转化为序数。

肯德尔tau-b相关系数

Kendall’s Tau相关系数,是由英国统计学家Maurice Kendall于1938年提出,主要包括Somers’ D、Goodman-kruskal’s gamma(γ)、Kendall’s Tau(a、b、c)等一系列相关系数。其中,最常用的是Kendall’s Tau-b和Kendall’s Tau-c相关系数。Kendall’s Tau相关系数适用于判断两列离散有序型数据之间的相关性,本文主要讲解Kendall’s Tau-b相关系数的计算。
学习笔记|Pearson皮尔逊相关系数|Spearman斯皮尔曼相关系数|和Kendall肯德尔tau-b相关系数|分析流程|-SPSS中双变量相关性分析系数_第8张图片

基本假设(适用条件):

假设同spearman。但适应条件和前两者比完全不一样,衡量有序分类型数据的序数相关性。

相关性系数的比较

皮尔森相关与Spearman和Kendall相关

非参数相关(指 spearman和hendall)的表达能力相对较弱,因为它们在计算中使用的信息较少。在Pearson的情况下,相关性使用有关均值和均值偏差的信息,而非参数相关性仅使用序数信息和成对分数。
在非参数相关的情况下,X和Y值可能是连续的或有序的,并且不需要X和Y的近似正态分布。但在皮尔逊相关的情况下,它假定X和Y的分布应该是正态分布,并且也应该是连续的(因此做spearman之前要做一些对数变换之类的尽量接近正态分布)。
相关系数 测量线性(皮尔逊)或单调(Spearman和Kendall)关系。

Spearman相关与Kendall相关

在正常情况下,Kendall相关性比Spearman相关性更强健和有效。这意味着当样本量较小或存在一些异常值时,首选Kendall相关。
在所有情况下,Kendall相关系数的绝对值均小于其他绝对值。 可以看出,肯德尔相关性比其他相关性更为保守。

你可能感兴趣的:(SPSS,学习,笔记,SPSS,皮尔逊,斯皮尔曼,肯德尔)