随机效应估算与固定效应估算_【机器学习】随机生存森林

随机效应估算与固定效应估算_【机器学习】随机生存森林_第1张图片

论文题目:RANDOM SURVIVAL FORESTS

论文PDF链接:

https://arxiv.org/pdf/0811.1645.pdf​arxiv.org

简介:随机生存森林(RSF),是一种用于对右删失生存数据进行分析的随机森林方法。 它引入了用于生长生存树的新生存分裂规则,以及用于估算缺失数据的新缺失数据算法。

RSF引入了生存森林的事件保留原则,并将其用于定义总体死亡率,这是一种简单的可解释的死亡率度量,可以用作预测结果。R软件包randomSurvivalForest提供了使用接口。

一、背景

基于决策树为基础学习器来构建集成模型,可以大大提高预测性能。 Breiman(2001)表明,可以通过将随机化注入基础学习过程中来进一步改善集成学习,这种方法称为随机森林。随机生存森林(RSF)方法扩展了Breiman的随机森林(RF)方法。在RF中,随机化有两种形式。首先,使用数据的随机样本子集样本来生长一棵树。其次,在树的每个节点上,选择随机选择的特征变量子集(协变量)作为分割的候选变量。对所有树进行平均,再结合用于生长树的随机化,可使RF功能更加丰富,同时保持较低的泛化误差。大量的经验证据表明,RF具有很高的准确性,可与诸如bagging[Breiman(1996)],boosting[Schapire等。 (1998)]和支持向量机[Cortes and Vapnik(1995)]等方法相提并论。

到2008年为止,RF的应用主要集中在分类和回归问题上。R软件包randomForest [Liaw and Wiener(2002,2007)]也仅考虑回归和多类数据设置,而不考虑生存分析。将随机森林扩展到右删失的生存数据具有很大的价值。通常使用依赖限制性假设(例如比例风险)的方法来分析生存数据。此外,由于这些方法通常是参数化的,因此必须通过特定形式的转换函数来表述非线性的效应。通常采用逐步回归等方法来确定非线性效应,但是涉及到多变量协同非线性时,这样会有一定问题,只能通过穷举方法或主观知识缩小搜索范围。

相反,这些困难是使用RF可以自动处理的。文章通过对体重过轻,超重或肥胖以及患有严重但稳定的冠状动脉疾病的预后意义进行深入的案例研究,来说明RSF可以轻松发现复杂的数据结构。尽管有关肥胖病流行的公共卫生影响已经有很多报道[Olshansky et al.(2005)],关于体重与预后的精确关联存在相当大的争议。调查人员注意到,体重过轻的人可能发生反向因果关系,与吸烟的相互作用以及拐点不明确的复杂模式,在这一点上体重增加会增加风险[Adams等(2006),Flegal(2005、2007),Fontaine等人(2003)]。一些人已经确定了心脏病患者中可能存在的肥胖悖论,其中体重增加预示着更好的生存[Urtesky等。 (2007)]。为了弄清这些问题,文章分析了接受隔离冠状动脉搭桥手术的一大批冠心病患者。使用RSF,我们确定了长期生存,体重,肾功能,吸烟和通过皮瓣移植的冠状动脉内部数目之间的复杂关系。RSF有助于解释先前报道的一些明显矛盾。

其他森林方法:RSF严格遵守Breiman(2003)提出的规定,因此不同于其他森林生存数据方法。 Breiman的处方要求在种植随机森林的各个方面都考虑到结果。 在右删失的生存设置中,这包括生存时间和检查状态。 因此,用于生长树的分裂准则必须明确地涉及生存时间和删失信息。 树节点杂质,测量分割数据的有效性,必须通过生存差异来测量分离。 此外,对于树中的终端节点的预测值,从森林中得到的整体预测值以及预测准确性的度量都必须适当地包含生存信息。

你可能感兴趣的:(随机效应估算与固定效应估算)