logistic回归模型

为什么要用logistic回归?

在医学领域,我们经常会遇到这样的数据:患病与未患病、生存与死亡、阴性与阳性……这些结果都是二分类变量。如果要研究自变量与分类型因变量的关系,用多元线性回归模型是束手无策的,因为多元线性回归模型研究连续性因变量,并且要求总体(因变量)分布类型为正态分布。因此,当因变量为分类变量时,需要使用logistic回归模型。

 

 

什么是logistic回归模型?

logit变换

我们在建立回归方程时,因变量的取值范围为实数集;而在我们所研究的问题中,这些分类型因变量的取值却是在0~1之间,如患病率为0.1、0.5、0.8等等,因此需要先对因变量的值(目标概率)做logit变换。

设事件发生的概率为$p$,不发生的概率为$1-p$,则将$\frac{p}{1-p}$称为事件的发生比,记为odds(比数、优势),logit变换即为:

$$logit(p)=ln(\frac{p}{1-p})$$

显然,当$p=1$时,$logit(p)$取值为$+\infty$;当$p=0.5$时,$logit(p)=0$;当$p=0$时,$logit(p)$取值为$-\infty$。这样一来,就把因变量的取值范围从0~1扩展到了实数集,而采用了这种处理的回归分析就是logistic回归。

 

logistic回归模型

设有一个二分类因变量y,取值为1时表示事件发生,取值为0时表示事件未发生;该因变量有m个影响因素(自变量):$x_1,x_2,...,x_m$;记事件发生的条件概率$P(y=1\mid x_i)=p_i$,则由$p_i$(第i个观测)所构建的logistic回归模型为:

$$logit(p_i)=ln(\frac{p_i}{1-p_i})=\beta_0+\beta_1x_1+\cdots +\beta_mx_m=\beta_0+\sum_{j=1}^{m}\beta_jx_j,j=1,2,\cdots,m$$

其中$\beta_j$表示自变量$x_j$改变一个单位时,$logit(p_i)$的改变量,可以理解为各个影响因素的权重系数。

通过变换,logistic回归模型也可以写成如下形式:

$$p_i=\frac{e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}{1+e^{\beta_0+\sum_{j=1}^{m}\beta_jx_j}}$$

通过观察logistic回归模型,我们会发现它与线性回归模型非常相似。事实上,logistic回归模型属于广义线性模型(generalized linear model)。

 

 

logistic回归模型的参数估计

logistic回归模型的假设检验

 

你可能感兴趣的:(logistic回归模型)