Lasso + Cox 生存分析模式

一、为什么需要用 Lasso + Cox 生存分析模式

一般我们在筛选影响患者预后的变量时,通常先进行单因素Cox分析筛选出关联的变量,然后构建多因素模型进一步确认变量与生存的关联是否独立。

       但这种做法没有考虑到变量之间多重共线性的影响,有时候我们甚至会发现单因素和多因素Cox回归得到的风险比是矛盾的,这是变量之间多重共线性导致模型失真的结果。并且,当变量个数大于样本量时(例如筛选影响预后的基因或突变位点,候选的变量数可能远超样本个数),此时传统的Cox回归的逐步回归、前进法、后退法等变量筛选方法都不再适用。

因此,当变量之间存在多重共线性或者变量个数大于样本量时,需要用Lasso(Least absolute shrinkage and selection operator)回归首先进行变量的筛选,然后构建Cox回归模型分析预后影响,这就是Lasso + Cox 生存分析模式。

二、什么是 Lasso + Cox 生存分析模式

Lasso可以在模型参数估计的同时实现变量的选择,能够较好的解决回归分析中的多重共线性问题,并且能够很好的解释结果。

Lasso回归算法使用L1范数进行收缩惩罚,对一些对于因变量贡献不大的变量系数进行罚分矫正,将一些不太重要的变量的系数压缩为0,保留重要变量的系数大于0,以减少Cox回归中协变量的个数。

三、R代码实现实例

进行Lasso回归需要用glmnet包,Cox回归模型用到survival包

假设现在要从50个CD8 T cell的marker基因中筛选具有预后效能的基因,这些基因在样本中是高度共表达的,即变量间存在共线性,样本量N = 400,现在进行Lasso Cox 回归。

转自:https://www.gaptech.cn/docs/b521450b-8c4a-492d-8885-c6272c7077c5/

你可能感兴趣的:(Lasso + Cox 生存分析模式)