两个自变量和一个因变量spss_SPSS学习笔记:因变量二分类资料的logistic回归分析...

转自个人微信公众号【Memo_Cleon】的统计学习笔记两个概念:RR和OR

二分类资料的logistic回归SPSS操作示例

几个需要注意的问题:样本量、哑变量、模型拟合效果和拟合优度检验、多重共线

【1】两个概念

RR(Relative Risk):相对危险度,也称危险比(Risk Ratio)或率比(Rate Ratio),在前瞻性研究中用以表示暴露与疾病发生的关联强度,说明暴露组发病危险是非暴露组发病危险的多少倍,是两组发病率之比,计算公式为:

OR(Odds Ration):比值比,优势比,比数比。在病例对照研究中说明暴露与疾病的关联强度,它是暴露在某危险因子下的发病率P1与不发病率之比(1-P1)与未暴露在某危险因子下的发病率P2与不发病率(1-P2)之比的比值。

比值(odd)表示发生的可能性与不发行的可能性之比,odds1=P1/(1-P1),odds2=P2/(1-P2)。OR=odds1/odds2=ad/bc

在logistic回归中,各自变量的回归系数βi表示自变量Xi每改变一个单位,比值比的自然对数值该变量,而exp(βi)即OR,表示自变量Xi每改变一个单位,阳性结果出现概率与不出现概率之比是变化前相应比值的倍数,即优势比。当阳性结果出现概率较小时(一般小于0.05)或者较大时(大于0.95),OR=(P1/(1-P1))/(P2/(1-P2))≈P1/P2=RR

【2】二分类资料的logistic回归SPSS操作示例

适用条件:①因变量为二分类变量,自变量可以是连续变量也可以是分类变量;②各观测间相互独立;③自变量与因变量logit(P)之间存在线性关系;④自变量间不存在多重共线;⑤尽量避免异常值,残差服从二项分布合计为零;⑥研究对象无论是病例组还是对照组,样本量至少是需要分析的自变量个数的10倍,多分类自变量的哑变量的参照水平频数至少为30。

示例:探讨冠心病发生的有关危险因素。分析数据来自孙振球主编的《医学统计学》第三版。

(1)数据录入赋值。二分类变量取值只有“0”和“1”两个值,本例年龄和体重指数严格来讲是要设成哑变量的(可参见本文后面关于哑变量的介绍),但由于样本量的问题,为更好的演示spss操作,本例按等级资料直接赋值。

(2)分析(Analyze)>>回归(Regression)>>二分类logistic(Binary Logistic…)

因变量(Dependent):选入冠心病[Y]

协变量(Covariates):选入自变量[X1]-[X8]

筛选变量方法(Method):进入(Enter):强行引入,全部变量一次进入模型,不进行筛选

向前:条件(Forward:Conditional):向前逐步选择法,剔除变量的标准是条件参数估计的似然比检验

向前:似然比(Forward:LR):向前逐步选择法,剔除变量的标准是最大偏似然估计的似然比检验

向前:Wald(Forward:Wald):向前逐步选择法,剔除变量的标准Wald卡方检验

不同的向前法选入自变量时均采用比分检验,只是采用的剔除变量的检验方法不同

向后法也三种,剔除标准分别对应条件、似然比和Wald

本例选中Forward:LR。

分类变量(Categorial…):可将多分类自变量设置为哑变量。

保存(Save…):可将中间的计算结果存储起来供以后分析,共有预测值、残差和影响强度因子三类

选项(Options…):可以选中相应选项对模型进行描述、预测和诊断,设置逐步法的进入和剔除标准等。本例选中CI for exp(B)选项

结果解释:

(1)数据处理情况汇总,本例共有54条记录纳入分析,无缺失值。本例样本量时偏少,要分析8个自变量至少需要160例记录,本例仅用于操作演示。

(2)因变量分类赋值

(3)预测分类表:此步开始进行拟合。Block 0拟合的是不包含任何自变量只有常数的无效模型,本例有28例对照的记录被预测为对照,有26例病例也被预测为对照,总预测准确率为51.9%,这是不纳入任何解释变量时的预测准确率,相当于比较基线。

Block 0: Beginning Block

你可能感兴趣的:(两个自变量和一个因变量spss)