生存分析-Cox回归模型

昨晚惊闻英国著名统计学家 David Cox 去世,享年 97 岁,老爷子因提出Cox回归模型而广为人知,今天带大家来了解一下Cox回归。由于其复杂性和相对较少应用(除了临床研究),很多统计学习者很少接触过和应用Cox回归,但随着队列研究和中长期随访的实验性研究越来越多,我们有必要学习使用它。

生存分析-Cox回归模型_第1张图片

Cox回归原理简介

在临床研究中,经常遇到是二分类结果(阴性/阳性;生存/死亡),研究者可以通过logistic回归来探讨影响结果的因素,或者构建预测模型来预测新患者的预期。

但很多时候logistic回归方法无法使用。比如,在随访期中,绝大部分对象都发生阳性结果( 患者全部治愈或者患者几乎都死亡了)。例如比较两种治疗手段治疗新冠肺炎效果(比如瑞德西韦和安慰剂组),可能在一个月的效果分别是95%和90%,在统计学上可能没有差异。

logistic回归是关于率的分析,探讨影响发生率的因素,但发生率的研究不能说明一切。

我们还可以从发生率发生的速度来分析,探讨影响发生速度的因素。这便是Cox回归基本思维,通俗来说,它可以探讨,到底哪类群体的“死亡”速度更快、到底什么因素影响了“死亡”速度。1972年,由英国统计学家D.R.CoxCox建立了函数,来解决这个问题

其中,h(t)便是研究对象的风险函数,即“死亡”速度,它随着时间的变化而变化。死亡速度指的是,t时刻存活的个体在t 时刻的瞬时死亡(阳性事件发生)率。

生存分析-Cox回归模型_第2张图片

h0(t)是回归方程的截距;x1,x2,…xj是自变量,β1,β2…,βj为回归系数。

可以发现,Cox回归通过指数转换,建立了新的线性回归方程,用于探讨自变量x对因变量h(t)的影响。

Minitab案例操作

在Minitab 21版本中,引入了此Cox回归模型,有两种形式,今天案例分享的是固定预测变量Cox回归模型。

生存分析-Cox回归模型_第3张图片

两者简单比较如下:

生存分析-Cox回归模型_第4张图片

案例背景:医学研究人员希望确定喉癌的阶段是否影响死亡的几率。研究人员计划根据病人的年龄调整分析。研究人员记录了90名男性癌症患者的阶段和年龄。然后,研究人员记录了第一次治疗和病人死亡或研究结束之间的年数。最后,研究人员记录了病人是否死亡。

医学研究人员执行COX回归评估死亡率,年龄和癌症阶段之间的关系。研究人员还希望估计每个阶段60岁男子的存活概率。数据格式如下:

生存分析-Cox回归模型_第5张图片

Minitab操作步骤如下:

生存分析-Cox回归模型_第6张图片

生存分析-Cox回归模型_第7张图片生存分析-Cox回归模型_第8张图片 

结果解释:

生存分析-Cox回归模型_第9张图片

在上面的“拟合优度检验”表中,所有3个检验的p值都小于0.05,所以该模型非常适合数据。

生存分析-Cox回归模型_第10张图片

在上面的“系数”表,年龄的 p 值为 0.182,因此年龄的影响在α=0.05水平上并不显著。阶段的 p 值在α=0.05水平上显著。因此,医学研究人员得出结论,癌症的阶段对患者的生存有统计学上显著的影响。在下面的“生存图”中可以进一步发现,第四期癌症的诊断对存活概率的影响最大。图中显示,1年后,60岁患者有第四期癌症的人只有64%的存活机会。其他三个阶段的概率为 85% 或更高。2 年后,IV 期患者的概率降至 42%,但其他三个阶段的概率保持在74%或更高。

生存分析-Cox回归模型_第11张图片

另外,在Minitab中还有个很有用的输出“类别预测变量的相对风险”表,使用类别变量的相对风险来评估癌症不同阶段之间的风险。

生存分析-Cox回归模型_第12张图片

例如,第四阶段患者的死亡风险是第一阶段患者的 5.5068 倍。此外,置信区间显示,第四阶段患者的实际死亡风险可能只有第一阶段患者的2.4倍或12.6倍,信心水平为95%。置信区间不包含 1,因此第一阶段和第四阶段的死亡风险之间的差异具有统计学意义。

你可能感兴趣的:(数据分析,逻辑回归)