Cox模型中的变量选择(1)---自适应Lasso方法

由于生存分析中涉及的变量数量比较庞大,经常有遇到处理高维数据的情况,这时在运用Cox模型前就有必要对变量进行选择,去除冗余,这一篇接着上一篇生存分析学习笔记,主要讲我对运用自适应Lasso方法对Cox模型进行变量选择的理解。

我们已经知道Cox模型的风险率结构表达式为

*(这里对上一篇进行一下补充,当βi>0,xi为危险因素,其值越大,死亡的风险率就越高,当βi<0,xi为保护因素,其值越大,死亡的风险率就越低。这也好理解,系数正负的问题,想一下就明白的事儿。)

上一篇对变量选择简单提过一些统计学上的方法,这些线性回归的变量选择技术诸如最佳子集选择法、逐步选择法、基于积分检验的渐进过程、瓦尔德检验、其他近似卡方检验过程、Bootstrap Procedure和贝叶斯变量选择法。这些方法都是不连续的,所以稳定性较差并且不适合高维数据。

Lasso回归

对于变量的选择,也可以换个角度来看,这也是一个去除无用变量的过程,如果能够让该变量前面的β变为0,那么我们就实现了对该变量的去除,这种思想来自于连续系数压缩的变量选择方法。有人考虑过岭回归,但其惩罚函数 λ||β||不能将系数压缩至0,因此岭回归不能做变量选择。Lasso将岭回归中基于L2范数的罚函数换为基于L1范数的罚函数,通过压缩系数绝对值的和以及调整参数λ的选择,可以同时实现变量选择和估计的连续稳定过程。

但Lasso也有一个缺陷,那就是它对所有变量都施加相同的惩罚,使得其估计量是有偏的,不满足Oracle性质,即变量选择的稀疏性、连续性和无偏性,显然是最后一个没有满足。并且,这个方法也不适合处理高维数据。

这里说一下变量选择的一些性质或者说是原则

(1)解的稀疏性是变量选择的核心,变量系数真实值为0并且估计值都为0的概率为1,则称该解具有稀疏性。也就是使原本系数值就比较小的系数的估计值被设置为0,这样就将无效变量踢出了模型,目前解决稀疏问题比较有效的方法是惩罚方法(哇塞!我们正要说的不就属于这一类吗?!开心吗?!)

(2)Oracle性质:1、变量选择的相合性:,其中βA是无误差的变量系数,这个性质是指在运用惩罚函数后的估计变量等于无误差的变量的概率在极限下概率为一。2、有渐进正态性:,其中Σ是真实的协变量子集下的协方差矩阵。

(3)无偏性:满足稀疏性和Oracle性质会保证惩罚项对非零系数估计产生的偏差不超过1/n 阶,从而控制了惩罚项对最终解造成的偏差,进而实现预测误差的降低。

自适应Lasso法

对于Lasso的有偏性,自适应Lasso法对系数采用不同权重进行二次惩罚,惩罚表达式为,看起来只是多了一个惩罚权重τj,它的作用是对越重要的变量使其的惩罚变越小,这样就可以使重要的变量更容易被挑选出来,而不重要的变量更容易被剔除。这样就很好的弥补了Lasso的缺陷,满足了Oracle性质。

将自适应Lasso法引入到Cox模型中

由上一篇生存分析我们已知,对Cox模型中回归系数的估计,我们采用的是偏似然估计,得到的对数偏似然函数为

为了给模型选择变量,我们要添加惩罚函数,并使带惩罚函数的偏似然函数最小,用公式来实现。其中,当J(βj)=|βj|时,这时是Lasso法,自适应Lasso法是在这上面再进行些小改动。先说这个式子,这个方法可以使本身就很小的系数收敛至0,从而产生稀疏的解,同时可以进行变量选择与估计,不过就是估计具有有偏性,这要靠一会儿要说的自适应Lasso法改进。参数λ是用来调整模型稀疏性的,如果λ的值过大,可能导致大的回归系数的估计有实质性偏差。如果λ太小,可能导致模型的解不够稀疏。所以这个λ要靠一定的准则来选择,如BIC(贝叶斯信息准则)、CV(交叉验证函数)、GCV(广义交叉验证函数)(这些改天再研究。。。)。

自适应Lasso法对上面的式子有小改动,是公式的解。其中起到进行二次惩罚的正数权重τj是通过数据自动适配选择出来的,它的确定是保证最优解的关键。我们可以这样对τj的值进行确定,先用不带τj的Lasso方法求出,然后令,再代入自适应Lasso的公式得到:,因为解出来的是一致估计量,最能反映变量的重要性(本来重要的因素求得的系数大),取其倒数放在罚函数里就刚好能使本来重要的因素受罚小了。到这里就是融合了自适应Lasso的Cox模型的变量选择,解最后一个公式,值为0的βi对应的变量就是要剔除的变量,剩下的自然就是选择出来的小宝贝儿们。

公式求解

不过这个公式可不好解,考虑到我们要处理高维数据,所以在方法上还要有所选择。可以先用二阶泰勒展开式将偏似然函数近似逼近转化为最小二乘问题,然后用循环坐标下降法(CCD)对模型进行求解来完成变量选择,最后运用牛顿-拉普森迭代法使系数收敛至真实值。

参考资料:

1、《Cox模型中的自适应Lasso变量选择》

2、《分类中的变量选择方法及应用》

你可能感兴趣的:(医学影像处理)