spss分析方法-生存分析(转载)
生存分析,是一种将生存时间和生存结果综合起来对数据进行分析的一种统计分析方法。主要用于对涉及一定时间发生和持续长度的时间数据的分析。
下面我们主要从下面四个方面来解说:
一、实际应用
生存分析最早可追溯至19世纪的死亡寿命表,但现代的生存分析则开始于20世纪30年代工业科学中的相关应用。第二次世界大战极大地提高了人们对武器装备可靠性的研究兴趣,这一研究兴趣延续到战后对武器装备及商品的可靠性研究。此时生存分析的大多数研究工作都集中在参数模型,直至20世纪60~70年代,随着医学研究中大量临床试验的出现,对于生存分析的研究开始转向非参数统计方法。现在,生存分析方法在各个领域得到了广泛的应用,而这一方法本身也得到了飞速发展。生存分析广泛应用于生物医学、工业、社会科学、商业等领域,如肿瘤患者经过治疗后生存的时间、电子设备的寿命、罪犯假释的时间、婚姻的持续时间、保险人的索赔等。这类问题的数据特点是在研究期结束时,所要研究的事件还没有发生,或过早终止,使得要收集的数据发生缺失,这样的数据即称为生存数据。生存分析就是要处理、分析生存数据。
二、理论思想
我们前面所学习的方法,只关注研究结果与影响因素,并没有关注结局发生的时间,而时间是一个绕不开的因素,当我们将研究结局与结局发生的时间同时进行考虑时,就采用生存分析方法。
生存分析的一些基本概念:
生存时间:指从某个起始事件开始,到出现我们想要得到的终点事件发生所经历的时间,也称为失效时间。生存时间具有的特点:分布类型不确定,一般表现为正偏态分布;数据中常含有删失数据。SPSS中通常把完全数据的示性函数取值为0。完全数据:指从事件开始到事件结束,观察对象一直都处在观察范围内,我们得到了事件从开始到结束的准确时间。删失数据:指在研究分析过程中由于某些原因,未能得到所研究个体的准确时间,这个数据就是删失数据,又称为不完全数据。产生删失数据的原因有很多:在随访研究中大多是由于失访所造成的;在动物实验研究中大多由于观察时间已到,不能继续下去所造成的。SPSS中通常把删失数据的示性函数取值为1。截尾数据:截尾数据和删失数据一样,提供的也是不完整信息,但与删失数据稍有不同的是它提供的是与时间有关的条件信息。SPSS软件只考虑对完全数据和删失数据的分析,对截尾数据不提供专门的分析方法。生存概率:表示某单位时段开始时,存活的个体到该时段结束时仍存活的可能性。计算公式为:生存概率=活满某时段的人数/该时段期初观察人数=1-死亡概率。生存函数:指生存函数指个体生存时间T大于等于t的概率,又称为累积生存概率,或生存曲线。S(t)=P(T>t)=生存时间大于等于t的病人数/随访开始的病人总数。S(t)为单调不增函数,S(0)为1,S(∞)为0。半数生存时间:指50%的个体存活且有50%的个体死亡的时间,又称为中位生存时间。因为生存时间的分布常为偏态分布,故应用半数生存时间较平均生存时间更加严谨。风险函数:指在生存过程中,t时刻存活的个体在t时刻的瞬时死亡率,又称为危险率函数、瞬时死亡率、死亡率等。一般用h(t)表示。h(t)=死于区间(t,t+∆t)的病人数/在t时刻尚存的病人数×∆t。
按照使用参数与否,生存分析的方法可以分为以下3种。
参数方法,数据必须满足相应的分布。常用的参数模型有:指数分布模型、Weibull分布模型、对数正态分布模型、对数Logistic分布模型、Gamma分布模型。
半参数方法,是目前比较流行的生存分析方法,相比而言,半参数方法比参数方法灵活,比非参数方法更易于解释分析结果。常用的半参数模型主要为Cox模型。
非参数方法,当被研究事件没有很好的参数模型可以拟合时,通常可以采用非参数方法进行生存分析。常用的非参数模型包括生命表分析和Kalpan-Meier方法。
目前生存分析最常用的方法即寿命表法、Kaplan-Meier法和COX回归法。
三、建立模型
寿命表分析的思路:
寿命表分析案例:
题目:下表数据文件记录了某保险公司各部门员工的在职情况,统计的部门有承保部、理赔部、人事部和理财部4个部门,其中“部门”变量中用数字1~4分别表示承保部、理赔部、人事部和理财部,“是否在职”变量中用1表示在职,0表示不在职,接下来本书将利用寿命表过程得出各个部门员工的“生存”(在职)情况。
一、数据输入
二、操作步骤1、进入SPSS,打开相关数据文件,选择“分析”|“生存分析”|“寿命表”命令2、从源变量列表框中选择“工作时间”变量,“时间”列表框中,然后设置时间区间的“0到(H)”值为60,“按(Y)”为3。
3、从源变量列表框中选择“是否在职”变量,选入“状态”列表框中,然后单击“定义事件”按钮,弹出“寿命表:为状态变量定义事件”对话框。由于数据文件中用1表示事件发生,所以选中“单值”单选按钮,并在其后面的文本框中输入1,将取值为0的观测作为截断观测,单击“继续”按钮。
4、从源变量列表框中选择“部门”变量,选入“因子”列表框中,然后单击“定义范围”按钮,弹出“寿命表:定义因子范围”对话框,在“最小值”文本框中输入1,在“最大值”文本框中输入4,单击“继续”按钮。
5、单击“选项”按钮,弹出“寿命表:选项”对话框,选中“寿命表”和“生存分析”复选框,“比较第一个因子的级别”选项组采用默认设置。
6、其余设置采用系统默认值即可。单击“确定”按钮,等待输出结果。
四、结果分析
1、寿命表给出了员工在职年限寿命表输出结果(部分截选图)。该寿命表给出了4个部门对应时间内的在职和不在职员工数,并计算出员工在职比率等统计量。
2、生存分析时间中位数下表给出了4个部门员工的生存时间中位数,即生存率等于50%时,生存时间的平均水平。很明显,由图可知,该保险公司4个部门的员工有50%的员工在职时间超过60个月。
3、累计生存函数给出了4个部门员工是否在职累计生存函数图,它是对生命表的图形展示。由图可以清楚地看到,承保部和理财部两个部门员工累计生存率下降最快,理赔部员工累计生存率下降速度低于人事部员工。
参考案例数据:
【1】spss统计分析从入门到精通 杨维忠,陈盛可,刘荣 清华大学出版社
(获取更多知识,前往gz号程式解说)
原文来自https://mp.weixin.qq.com/s/DIEd14-_vv6Nre5PX0ZJmw