干货|多因素做cox生存分析,怀疑数据共线性了怎么办?——多重线性回归(一)

昨天从一个坑爬出来,今天又掉进另一个坑里

问题就是这么个问题,生存回归单因素分析的95%CI和HR,为什么和cox多因素算出来的不一样?丁香园的人说,这是因为共线性的问题。

于是小张又踏上了解决共线性的问题的道路

此文贼长,看到最后有个小彩蛋

百度文库里有一个很详细全面的文档(认真一看,其实也不是很详细),丁香园子里还有个老师是用sas做的,但是那个文档看起来很头晕

多重共线性问题的几种解决方法 - 百度文库​wenku.baidu.com

还是我自己来,首先你要怎么的得知自己的几个变量它就共线性了呢

完全不知道这个是在说什么

让我们回到COX需要满足的条件

接着就是——多重线性回归看是否符合假设3-8

经过上述操作,dataview出现了五个新变量

这5个变量分别是未标化预测值(unstandardized predicted values,PRE_1)、学生化残差(studentized residuals SRE_1)、学生化删除残差(studentized deleted residuals,SDR_1)、Cook距离(Cook's Distance values,COO_1)以及杠杆值(leverage values,LEV_1)。

根据这5个新增变量和其它结果,我们将逐一对假设3-8进行检验。

假设3.DURBIN-WATSON检验可用于观测变量间是否有影响,一般处于0-4之间,越接近2,观测值相互独立的可能性越大

假设4.因变量和自变量之间存在线性关系

(1)因变量和所有自变量之间的关系

一般来说,如果未标化预测值(PRE_1)和学生化残差(SRE_1)的散点图呈水平带状,就说明多重线性回归中因所有自变量之间存在线性关系。结果提示,本研究满足因变量与所有自变量之间存在线性关系的假设。

(2).因变量与每一个自变量是否有关

假设5.残差的方差齐

这些就属于方差不齐

假设6.不存在多重共线性

一般来说,如果自变量之间的相关系数大于0.7,则可能存在多重共线性。本研究中,任意两个自变量的相关系数都小于0.7,提示不存在多重共线性。

点击Collinearity diagnosis,SPSS可以输出容忍度(Tolerance)和方差膨胀因子大于10。

实际上,方差膨胀因子是容忍度的倒数(1/容忍度),我们只需要判断其中一个指标即可。如果容忍度小于0.1(或方差膨胀因子大于10),提示数据存在多重共线性。

在本研究中,所有容忍度值都大于0.1,提示数据满足假设6。

假设7.没有显著异常值

1.离群值

方法1.Casewise Diagnostics检验标准是上下3倍标准差,并标记超出此范围的数据为离群值。

如果研究中没有标化残差超出3倍标准差的离群值,SPSS就不会输出该表格。本研究中没有标化残差超出3倍标准差的离群值,SPSS也未输出Casewise Diagnostics检验结果

方法2.将学生化删除残差降序(或升序)排列后,在数据栏的最上方和最下方检查是否存在超过3倍标准差的离群值。如果存在,就应进行相应的调整或剔除。

2.高杠杆点

自变量的异常值即高杠杆点。高杠杆点可以通过杠杆值检测。Distance框内点选Leverage values后,新增变量(LEV_1)就是杠杆值。Data View窗口中,右击LEV_1数据栏,选择"Sort Descending"(或Sort Ascending)。将杠杆值降序(或升序)排列后,检查杠杆值。

一般来说,如果杠杆值小于0.2,可以认为数据安全。但如果杠杆值位于0.2-0.5之间,则认为对应数据可能是高杠杆点;若杠杆值大于0.5,数据就很可能是高杠杆点了。

我发现自己的文章有一堆高杠杆点

3.强影响点

COO_1,小于1就认为ok

假设8.残差近似正态分布

离对角线越近,越认为是正态分布

PP图比直方图更直观

近似即可

太累了,不能连续打出一段话了,以上,我看完资料的三点总结

八个假设走一遭



文末的小彩蛋~啾

没了,哈哈哈

你可能感兴趣的:(干货|多因素做cox生存分析,怀疑数据共线性了怎么办?——多重线性回归(一))