浅谈生存分析

为什么要用生存分析?
相信大家对于生存分析这一概念已有相当多的了解,但在进行相关操作前,是否思考过为何要使用生存分析?

小编将通过一个事例进行说明:考虑研究对象为某一患病群体,将该群体分为两组,在初始时间分别施加药物A和药物B治疗,在未来三年对每一位患者进行随访以观察其病发情况。

情形1:只记录三年后两组患者的病发情况,检验不同药物对于病发情况是否存在显著差异。

显然,卡方检验即可实现这一研究目标。但该实验本身存在一个巨大缺陷——没有考虑患者的病发时间这一变量。

情形2:只记录两组患者在三年内的病发时间(此时假设所有患者在观察期内均会病发),检验不同药物对于病发时间是否存在显著差异。

同样,使用Wilcox秩和检验可完成这一比较分析。但该实验同样存在问题,即病发情况过于理想了,所有患者不一定会在三年内病发。

情形3:同时记录两者患者在三年内的病发情况和病发时间(未病发则时间记录为三年),考虑药物对于病发情况和病发时间的综合影响。

现在来看,使用卡方检验或Wilcox秩和检验就不太适合了,而生存分析则是实现这一研究目标的首选方法。

此外,在对患者的随访调查中,很大概率存在失访的现象,在这种情形下,如何正确处理失访数据则显得尤为重要。而生存分析不仅没有将失访数据直接剔除,反而最大程度上利用了失访者的已有随访时间(生存时间),使得研究结果更可靠。

知识点补充:
生存资料:包含结局变量,时间变量和因素变量,分别指结局发生情况(如病发,死亡等)、结局未发生前的随访时间以及待检验因素。

在临床研究中,结局变量通常为二值型变量,包括结局发生和删失两种情况。

删失值:若在指定随访期限内未观察到结局发生,则该类数据均被认为是删失值。数据删失包含以下三种情况:中途失访、实验范围外结局发生(如意外死亡)、结局最终未发生。

生存分析原理简介

在临床研究中,常规的生存分析操作主要关注以下三点:

(1)如何计算生存曲线上对应时间点的生存概率?
(2)如何计算中位生存时间?
(3)如何检验不同组生存概率在某因素下是否存在显著差异?

针对上述问题,小编将简要介绍生存分析理论中常见的Kaplan-Meier 生存概率估计法与Log-Rank检验法:

Kaplan-Meier 生存概率估计法

作为一种非参数估计法,KM方法本质上是往期生存概率的不断累乘,其核算公式如下:
浅谈生存分析_第1张图片
通过KM估计法,我们就可以求得生存曲线上对应时间点的生存概率,关于生存曲线的具体描绘方法,大家感兴趣可以参考以下文章:

http://www.360doc.com/content/17/0626/11/6175644_666623573.shtml

另外,根据KM估计法求得生存概率后,我们只需要找到当生存概率为50%所对应的时间点,该点值即为中位生存时间。

Log-Rank检验法
同样作为一种非参数检验法,Log-Rank检验法可用于比较不同组别生存曲线或生存函数,从而确定某一待检验因素对于事件结局的发生情况是否存在显著影响。

Log-Rank检验法在某种程度上类似于卡方检验,关于Log-Rank检验的详情大家可参考如下文章:

https://zhuanlan.zhihu.com/p/350013312

知识点补充
浅谈生存分析_第2张图片

你可能感兴趣的:(医学分析课题,概率论,人工智能)