丁香公开课学习笔记
生存分析(survival)概念:将时间的结局和发生这个结局所经历的的时间因素综合起来分析的一种统计方法。它能处理截尾数据,并对整个生存过程进行分析或比较。
生存资料特点:
(1)有生成结局,生存时间
(2)有不确定的截尾数据
(3)分布可能呈现指数分布、weibull分布,对数正态分布、对数logistic分布等
生成分析主要包括内容:
(1)统计描述:计算生成率,绘制生成率曲线,计算中位生存时间
(2)统计推断:估计总体生产率的可信区间,生存曲线的比较
有言在先(容易混淆的概念或者马甲名字)
(1)终点事件(terminal event)=失效事件(failure event),如:因癌死亡,大多用1表示
(2)截尾:所以没有发生结局的都是截尾,则 如上述的结局,终止研究,失访,死于车祸等都是属于截尾数据,都可以用0表示。
截尾数据不能提供完全的in小,真实的生成时间未知,直至比观察到的截尾时间长,常用符号“+”表示。在统计软件会进行一些估算(具体怎么估算的,暂不考虑)。
(3)生存概率(probability ofsurvival)表示 单位时间段开始存活的个体到该段时间结束时仍存活的可能性。
某年(单位时间)活满一年人数/某年年初人口数(历险数)
死亡概率
(4)生存率(survival rate ):表示观察对象经历k个单位时间段后仍存活的可能性。
由于大多存在截尾数据,会分段计算生成概率,然后相乘,pi为某个时段的生存概率
所以:生存率=累计生存概率≠生存概率
(5)单因素分析得到的HR就是Crude HR,由多因素分析的到的HR就是Adjusted HR
(6) COX回归中 Exp(B) =RR=HR
生存分析的基本方法:
一般我们用的就是乘积极限法(Kaplan-Meier法)、寿命表法、cox比例风险回归模型。
(1)非参数法:不论资料是什么分布类型(不考虑),只根据样本提供的顺序统计量对生存率进行估计。常用乘积极限法和寿命表法。
生存曲线的比较:log-rank检验(非参数检验法)
1.乘积极限法(Kaplan-Meier法)
适用于分组生存资料的分析,需要知道每例患者的生存时间与状态。
中位生存时间:若生存率0.5处所对应的曲线与X轴平行,则中位生存时间不只一个;若各时间点生存率均大于50%,无法估计中位生存时间。
对
2.寿命表法
适用于未分组的生存资料,不需要知道每例患者的生存时间与状态。
①实际工作中,随访结果常常没有每个观察对象确切的生存时间,只能获得按随访时间分段的资料
②当样本较大(n>50)时,采用乘积极限估计生存率及标准误往往较为繁琐
log-rank检验
对数秩检验,非参数检验法,单因素分析,其零假设为两总体生存曲线相同,但检验过程一般不估计生存率,而是利用死亡数和死亡概率数作为统计推断。
log-rank检验注意事项:
①相对死亡比:实际死亡数A与理论死亡数T之比,相对危险度(relative risk,RR)估计值为两组相对死亡率之比。如A组患者与B组患者相比RR=2.64,表示A组患者死亡风险是B组患者死亡风险DE 2.64倍。SPSS里的log-rank不提供这个值,可以采用cox回归,或者其他软件如graphpad来算。
②log-rank检验适用于两条整条生存曲线的比较,比较两条生存曲线某时点的生存率是有特定算法的
。不能直接对两个点的生存率的值进行比较。
③两组以上的生存曲线比较时,log-rank算出来的p只能代表这多条曲线具有区别,但具体两两有无区别需要分开计算,再进行检验水准α的校正。
额外知识点:三种检验方法(log-rank、breslow、tarone)的比较
Log rank:检验生存分布是否相同,各时间点权重一样。
Breslow:检验生存分布是否相同,以各时间点的观察例数为权重。
Tarone-Ware:检验生存分布是否相同,以各时间点的观察例数的平方根为权重。
log-rank法侧重于远期差别,breslow法侧重于近期差别,tarone法介于两者之间。对于一开始靠得很近,随着时间的推移逐渐拉开的生存曲线,log-rank法较breslow法更容易得到显著性的结果;反之,对于一开始拉的很开,以后逐渐靠近的生存曲线,breslow法较log-rank法更容易获得统计学差异。如果log-rank法有显著差异,而breslow没有差异,可以解释为在开始时生存率没有差异,随之时间的推移生存率出现差异,反之亦然。tarone法是一种折中的方法,介于两者之间。
(2)参数法:假定生存时间服从特定的参数分布,根据分布特点对影响生存的时间进行分析。常用指数分布法,weibull分布法,对数正态分布法、对数logistic回归分布法。对时间进行转化,使其符合正态分布后在进行后面操作。用的少。
(3)半参数法:介于上述两者之间,一般属于多因素分析方法。用于探讨生存过程的主要影响因素,经典方法就是cox比例风险回归模型。
cox比例风险回归模型
(1)COX模型不直接考察生存时间与各自变量的关系,而是利用风险率作为应变量。COX模型的基本结构为:
h(t,X):t时点上m个危险因素起作用时的风险率,即在时间t上的死亡率;
h0(t):某时间t上当m个危险因素为0时的基准风险率;
X = (X1,X2,X3,...Xm):与生存时间可能有关的自变量;
β = (β1,β2,...βm):COX模型的回归系数。
COX回归方程的检验方法有,采用似然比检验、Wald检验和记分检验(后两者比较常用)。假设检验H0为:β1=β2=...=βm=0,H1:各β j(j=1,2,...m)不全为0
h0(t)分布类型未做任何限定,但h(t)随变量X的变化假定为指数函数exp(bx),故COX模型为半参数模型。又由于h0(t)分布类型未做任何限定,使用范围广泛,类似于非参数方法,但其检验效率高于非参数检验,接近参数模型。总而言之,pick它!
(2)COX回归模型的应用条件(均需满足)
①已知观察对象生存时间
②已知观察对象在事先确定的观察时间内,其是否发生某件事情的结果
③自变量可以是计量资料、计数资料、或等级资料
④等比例风险(PH),指协变量不同状态的病人的风险在不同的时间比例保持不变。
(例如,当选择是否有糖尿病作为其中一个协变量,那么研究的时间段内,比如10年,具有糖尿病患者的肝癌的死亡风险是非糖尿病的3倍,无论第一年,第二年,...,都是如此)
(3)等比例风险验证
①按照协变量分组的K-M生存曲线,如果曲线存在明显交叉,则不满足PH假定。(简单,使用多)
②将协变量与时间做交换项引入模型,如果交互项没有统计学意义,则等比例风险成立,如果有统计学意义,则不成立。
与时间有关的风险称为非比例风险,采用非比例风险模型分析。
(4)COX回归前之因子初步筛选
①.剔除缺失数据较多的因子
②.剔除变异几乎为零的因子
③.对所有因子单个作为单因素COX模型分析,选择具有统计意义变量作多因素COX模型分析,此时α值可以去大些,如α=0.1
如果有效样本量足够大可以通过软件自带的筛选因子方法:前进法,后退法,逐步法进行操作,否则不推荐使用。
(5)COX回归结果简单解读
sig.=p <0.05 属于危险因素
exp(B) = HR 值越大对生存的影响越大