2.4回归(regression)

2.4 回归(regression)

2.4.1 @生存分析(AFT Survival Regression)

在Spark.ml中,实现了加速失效时间(AFT(Accelerate Failure Time))模型,这是一个用于检查数据的参数生存回归模型。它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为买个实例独立地贡献于目标函数。

模型规范(Wikipedia):

在通用性方面,加速失效时间模型可以指定为:

其中θ表示协变量的联合效应,通常。(用负号指定回归系数,意味着高的协变量值增加了生存时间,但这只是一个符号标记;如果没有负号,就会增加风险。

这满足了如果概率密度函数是然后,对于这个生存函数 ,由此不难看出,慢化寿命T分布为T0和未慢化寿命T0分布相同。因此,log(T)可以写成

其中,最后一项分布为log(T0),即,独立于θ。这减少了加速失效时间模型的回归分析(通常是线性模型),其中log(θ)代表固定效果,ζ代表噪音。ζ的不同分布意味着T0的不同分布,即,不同的生存时间的基线分布。通常,在生存-分析上下文中,很多观察都是经过审查的:我们只知道Ti > ti,而不知道Ti = ti。事实上,前者代表生存,而后者则代表后续过程中的事件/死亡/审查。如果T0的分布不寻常,那么这些右-删失观察可能对估计模型提出技术挑战。

在加速失效时间模型中对θ的解释很简单:θ = 2,意味着个人相关生命历史中的每件事发生的速度都是它的两倍。例如,如果模型涉及到肿瘤的发展,这意味着所有的前期进展速度是未暴露个体的两倍,这意味着临床疾病的预期时间是基线时间的0.5倍。然而,这并不意味着风险函数λ(t|θ)总是两倍高——这就是比例风险模型。

 

返回主目录(Spark MLlib算法思想总结)

 

 

2.4回归(regression)_第1张图片

你可能感兴趣的:(Spark)