目录
一、生存分析介绍
1.生存分析用途
2.传统方法在分析随访资料时的困难
(1)生存时间和生存结局都是我们关心的因素
(2)存在大量失访
(3)显然,将失访数据无论是算作死亡还是存活都不合理
3.生存分析的优劣势
(1)优势
(2)劣势
4.生存分析的主要研究内容
(1)描述生存过程(Kaplan-Meier方法)
(2)生存过程影响因素分析及结果预测(Cox回归法)
5.常用术语
(1)失效事件(Failure event)
(2)删失数据(截尾数据,Censored data)
(3)生存时间(Survival time)
(4)生存率(Survival rate)
6.生存分析方法分类
(1)参数法
(2)非参数法
(3)半参数法
二、Kaplan-Meier方法
三、Cox等比例风险模型
1.模型介绍
2.风险函数h(t)
四、加速失效模型
生存分析是一种常用于医学研究的方法,但该方法最早用于武器寿命的分析,如考虑炮弹存放一年后仍可正常使用的概率。该方法可用于其他很多领域,如:
(1)职员在公司任职的时间(员工在公司待k年的概率)
(2)产品的寿命预测(可靠性)
(3)治愈某疾病所需时间(使用药物k年后病人的存活率)
在针对总体生存时间都比较短的疾病的研究中,生存分析比考虑结局,不考虑时间因素的Logistic模型等方法的效率要高的多。
如果相应疾病的结局都非常好,比如几乎人人都可痊愈的感冒,生存分析的利用价值并不大,因为除非是特殊情况,感冒晚好两天对医生或病人来说并没有太大影响。
也被称为“死亡”事件或失败事件,表示观测到受访对象出现了我们所规定的结局。失效事件的认定是生存分析的重要环节,必须绝对准确。
失效事件应当由研究目的而决定,并非一定是死亡(如研究灯泡寿命),而死亡也并非一定是发生了失效事件(如肺癌患者死于其他疾病)。
终止随访不是由于失效时间发生,而是无法继续随访下去,常用符号“+”表示,如:
随访观察持续的时间,按失效事件发生或失访前最后一次的随访事件记录,常用符号t表示。
根据失效事件的定义不同,生存时间可能是各种类型的指标,甚至可能不是“时间”,如:
生存率也称为生存函数S(t) ,指某个受访对象活过t时刻的概率,用S(t)=P(x>t) 表示,可见S(t)=1-F(t) ,其中F(t) 为生存时间的分布函数。
根据不同研究问题定义的失效事件,生存率可以是产品有效率、可靠性等。
首先要求观察的生存时间X 服从某一特定的分布,采用估计分布中参数的方法获得生存率P(X>t) 的估计值。
生存时间的分布F(.) 可能为指数分布、weibull 分布、对数正态分布等,这些分布曲线都有相应的生存率函数形式。只需求得相应参数的估计值,即可获得P(X>t) 的估计值和曲线。
P(X>t)=1-F(t)
实际工作中,多数生存时间的分布不符合上述常见的分布,就不宜用参数法进行分析,而应当用非参数法。
这类方法的检验假设与以往所学的非参数法一样,原假设是两组或多组的总体生存率曲线分布相同(不论总体的分布形式和参数如何)。如检验服药组和对照组的生存曲线是否有显著差异,从而判断药物疗效。
非参数法是生存数据的常用分析方法
只规定了影响因素和生存状况间的关系,但是没有对事件(和风险函数h(t) )的分布情况加以限定。
这种方法主要用于分析生存率的影响因素,属多因素生存分析方法,典型方法是Cox等比例风险模型。
是最基本的一种生存分析方法,例如新药组与对照组疾病疗效的比较研究
Cox等比例风险模型属于半参数模型,与参数模型相比,该模型不能给出各时点的生存率,其对生存时间的分布无要求,可发掘在整个研究时段内对生存状况影响显著的因素,并估计出各因素对生存率的影响程度,因而应用范围更广。为了纪念Cox的贡献,统计学家把它称为Cox等比例风险模型(Cox回归模型)
生存到时刻t的观察对象在时刻t的瞬间死亡率称为风险函数(hazard function)。
在比例风险模型中,假设在时点t个体出现观察结局的风险大小可以分解为两个部分:有一个基本风险量h0(t) ,代表没有任何自变量影响下的生存状况(反映病人不采取任何措施时的生存状况);第i个影响因素使得在任意一个时点t的死亡风险(风险函数值)从h0(t) 增加e(biXi) 倍,称为ht=h0(t)e(biXi) 。
因此,如果在k各因素同时影响生存过程的情况下,在时点t的风险函数值就为:
上式取对数,移项得:
log(Z)=X'β+ε=β0+β1X1+β2X2+β3X3+ε
其中,Z0=exp(ε) 称为基准生存时间,Z=Z0e(X'β) 。