SAS编程-Efficacy:如何计算相关系数、进行假设试验?——定量资料的相关

两变量间的关系有两类:确定性关系和非确定关系。

前者指两变量间的关系是函数关系,可以精确测量。后者指两变量在宏观上存在关系,但未精确到可以用函数关系来表达。

相关分析时研究观察指标间相关关系的统计方法,按数据类型的不同分为:定量资料的相关、定性资料的相关、等级资料的相关

这一篇先介绍定量资料的相关。

1. 样本相关系数的计算

当一个变量增大 ,另一个变量也随之增大或随之减少,可以说两变量存在相关关系。相关关系分为线性的和非线性的,我们常说的相关是指线性相关。

相关系数,是表达两变量间线性相关程度和方向的一个统计指标,也称Pearson相关系数。样本相关系数用符号r表示,总体相关系数用ρ表示。样本相关系数计算如下:

相关系数取值范围在-1到1之间,小于0为负相关,大于0为正相关,等于0为零相关。相关系数的绝对值越大,表示两变量间的相关程度越密切。

2. 相关系数的假设检验

样本相关系数r是总体相关系数ρ的估计值。作为样本统计量,样本相关系数会有抽样误差。即使从相关系数ρ=0的总体中随机抽样,样本相关系数也往往不等于0,所以对样本相关系数r进行假设检验。

相关系数的假设检验用t检验:

3. Fisher z变换

当相关系数假设检验,拒绝H0,接受H1时,可以认为样本来自于总体的相关系数ρ不等0。从这个总体中进行抽样,样本相关系数的抽样分布是偏态的,不方便进行比较。

R.A.Fisher 提出的z变换解决了这个问题,对相关系数r做如下变换:

变换值z近似服从正态分布:

基于此,我们可以计算出相关系数的可信区间,以及两相关系数的比较。

两相关系数的比较就转化成,对z值的比较,具体的公式如下:

两相关系数的比较,在临床试验中较为少见,SAS中没有直接输出比较结果的选项,需要自己编程实现对应的算法,获取p值。

4 SAS编程实现

计算相关系数使用的是Corr过程步,以下举例来源于SAS官方文档 (Example 2.4 Applications of Fisher's z Transformation)。

演示数据为2元正态分布的模拟数据(X, Y),共有3个组别。第一组,样本量为150,相关系数为0.3;第2组,样本量为150,相关系数为0.25;第3组,样本量为100,相关系数为0.3。

data Sim (drop=i);
do i=1 to 400;
  X = rannor(135791);
  Batch = 1 + (i>150) + (i>300);
  if Batch = 1 then Y = 0.3*X + 0.9*rannor(246791);
  if Batch = 2 then Y = 0.25*X + sqrt(.8375)*rannor(246791);
  if Batch = 3 then Y = 0.3*X + 0.9*rannor(246791);
  output;
end;
run;
4.1 检验总体相关系数是否等于一个给定值 (rho0)

检验总体相关系数是否等于0,有两种方法:一种是t检验,一种是Fisher z变换后的正态性检验。

1) t检验

使用Corr过程步的Person选项,可以获取对应比较的p值,日常工作中,需要将输出到数据集。

title 'Analysis for Batch 1';

ods output PearsonCorr = pcorr;
proc corr data=Sim (where=(Batch=1)) pearson;
   var X;
   with Y;
run;
ods output close;

输出结果如下:

这里的选项也可以使用 var X Y;,这个选项会输出XY、YX的双向结果:

2) Fisher z 变换

通过Fisher z 变换,转化为正态分布进行处理,检验相关系数是否等于0:

title 'Analysis for Batch 1';
proc corr data=Sim (where=(Batch=1)) fisher(rho0 = 0);
   var X Y;
run;

输出结果如下:

原数据Batch 1是按相关系数0.3进行模拟的,显然不等于0。两种检验方法得出的p值都<0.05,拒绝了总体相关系数ρ=0的假设。虽然两种方法的p值有细微差异(0.0001),但不影响结果。

第一种方法只能检验总体相关系是否等于0,因为只有在ρ=0的情况下,样本相关系数的抽样分布才服从t分布。第2种方法可以适用于总体相关系数其他值的检验,同时也会输出相关系数的95%的可信区间

临床试验中,一般计算相关系数的要求比较简单,通常只要r 和 p值,使用的方法是t检验。当然,这具体要看试验设计和统计的要求。

4.2 检验两总体相关系数是否相等

如前面介绍,这种情况只能进行Fisher z变换后进行比较,同时需要进行手动编程实现对应的算法。代码实例进行比较Batch1 和 Batch3的相关系数是否相等。

首先,计算2组的相关系数,以及分别进行假设检验:

ods output FisherPearsonCorr=SimCorr;
title 'Testing Equality of Population Correlations';
proc corr data=Sim (where=(Batch=1 or Batch=2)) fisher;
   var X Y;
   by Batch;
run;
ods output close;

proc print data=SimCorr;
run;

输出结果如下:

第二,计算z统计量以及双侧检验的P值。

data SimTest (drop=Batch);
   merge SimCorr (where=(Batch=1) keep=Nobs ZVal Batch
                  rename=(Nobs=n1 ZVal=z1))
         SimCorr (where=(Batch=2) keep=Nobs ZVal Batch
                  rename=(Nobs=n2 ZVal=z2));
   variance = 1/(n1-3) + 1/(n2-3);
   z = (z1 - z2) / sqrt( variance );
   pval = probnorm(z);
   if (pval > 0.5) then pval = 1 - pval;
   pval = 2*pval;
run;

proc print data=SimTest noobs;
run;

结果如下:

p = 0.27954 > 0.05,在α=0.05的水准下,所以没有证据拒绝零假设,不能认为两组的相关系数不同。这结论与起始的数据模拟条件是一致的。

代码中如要注意的是,pval = probnorm(z);,计算的分布函数值,即P{x

感谢阅读, 欢迎关注!
若有疑问,欢迎评论交流!

你可能感兴趣的:(SAS编程-Efficacy:如何计算相关系数、进行假设试验?——定量资料的相关)