spss--数据分析Log-Binonial模型

               在横断面研究中,Log-binomial 模型能够获得研究因素与结局变量的关联强度指标患病率比(PR),是一种研究二分类观察结果与多因素之间关系的重要方法,在医学研究等领域中得到了广泛的应用。

采用log-binomial 模型可直接估计PR,  log-binomial模型的因变量y服从二项分布 ,且因变量(y= 1)概率的对数与自变量呈线性关系:

 

其中,

 

β表示控制其他自变量时 , 自变量X 与Y之间的回归系数 ,PR = exp ( β)

01适用情形
 

但当事件的发生率较高(>10%)时 ,若仍用OR描述关联强度,则会高估暴露与结局的关联。因此,很多学者建议采用现患比(PR)描述暴露与结局的关联强度。

 

当存在连续型自变量时,可能导致log-binomial 模型出现不收敛的情况,这是则可采用COPY方法(数据集扩充,后面会介绍)。

02案例分析

假设有因变量Y与自变量X1,X2, X3, X4 等;因变量Y(二分类)患病率大于20%,自变量X1 为年龄age(连续型变量),其他均为分类变量;

对于此案例,最直接的方法是采用logistic回归模型,但是Y患病率大于20%,可能会高估OR值。因此,本例使用Log-binomial 模型的PR值来估计患病率与研究因素的关联强度

03 SAS 程序实例
 

PROC GENMOD 的详细使用可参照SAS help 手册。

spss--数据分析Log-Binonial模型_第1张图片

 

 

在SAS/STAT中,通过PROC GENMOD 程序实现

数据集名为Log_binomial,参数统计量输出到Log_binomial _y中;

spss--数据分析Log-Binonial模型_第2张图片

定义数据集OUT-para,  计算PR, LPR, UPR; 并打印

spss--数据分析Log-Binonial模型_第3张图片

 

输出结果

spss--数据分析Log-Binonial模型_第4张图片

 

spss--数据分析Log-Binonial模型_第5张图片

 

但是,日志中警告 模型出现不收敛。可能的原因与很多,其中连续型自变量age可能导致模型出现不收敛;
下面采用COPY方法对数据集进行扩张。

04 SAS程序示例—COPY方法
 

当存在连续型自变量时, MLE(maximum likelihood estimation)估计的参数通常在参数所限制范围的边界上 ,MLE得不到似然函数导数为零的极大值点,导致模型不能收敛。

Deddens等学者提出先对原始数据集调整扩充后再拟合 log-binomial模型,称为COPY方法扩充原始数据集的步骤:当log-binomial 回归模型不收敛时,将原始数据集中Y=1的个案增加 c-l倍 ,然后再将原始数据集Y值互换 ,将这两个新的数据集合并成一个数据集, 即为复制(COPY )数据集 , 再利用 COPY 数据集拟合log-binomial 回归模型从而达到解决模型不收敛问题 。

通常C为常数 ,C越大(通常取1000) ,COPY数据集的伪似然估计值越接近于最大似然估计值 。在 SAS 软件中, 可以利用 genmod 模块中的加权log-binomial回归模型实现COPY 数据集下的log-binomial回归方法 。



对数据集log-binomial 进行复制,其中,c=1000;

spss--数据分析Log-Binonial模型_第6张图片

 

再对数据进行log-binomial模型分析,应特别注意需要对 w 进行加权处理

spss--数据分析Log-Binonial模型_第7张图片

 

结果输出

spss--数据分析Log-Binonial模型_第8张图片

 

spss--数据分析Log-Binonial模型_第9张图片

 

05 logistic回归模型与log-binomial模型的对比
 

从调整OR值和PR值可看出,log-binomial模型计算出的PR值要更接近与1。

spss--数据分析Log-Binonial模型_第10张图片

 

你可能感兴趣的:(算法,数据结构,线性回归,决策树,宽度优先,广度优先,深度优先)