Logistic回归建模
Logistic回归属于概率型非线性回归,对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为“是、否“两个取值,记为0和1。假设在自变量想,x1,x2.......,xp 作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的概率p与自变量x1,x2,x3……, xp
的关系。
Logistic函数
Logistic回归模型中的因变量只有1-0(如是和否、发生和不发生)两种取值。假设在p个独立自变量x1,x2……xp 作用下,记y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和0的概率之比p/1-p (odds),称为事件的优势比,对优势比取自然对数即得Logistic变换Logit(p)=Ln(p/1-p)。
令Logit(p)=Ln(p/1-p)=z,则p=1/1+e-z 即为Logistic函数。当p在(0,1)之间变化时,odds的取值范围是,则Ln(p/1-p)的取值范围为。
Logistic回归模型
Logistic回归模型是建立在Ln(p/1-p)与自变量的线性回归模型
Logistic回归模型为:
Logistic回归建模步骤
Logistic回归模型的建模步骤如下图
1) 根据分析目的设置指标变量(因变量和自变量),然后收集数据。
2) Y取1的概率是p=P(y=1|X),取0的概率为1-p。用Ln(p/1-p)和自变量列出线性回归方程,估计出模型中的回归系数。
3) 进行模型检验:根据输出的方差分析表中的F值和p值来检验该回归方程是否显著,如果p值小于显著性水平 则模型通过检验,可以进行下一步回归系数的检验;否则要重新选择指标变量,重新建立回归方程。
4) 进行回归系数的显著性检验:在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,为了从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单有效的回归方程,需要对每一个自变量进行显著性检验,检验结果由参数估计表得到。采用逐步回归法,首先剔除掉最不显著的因变量,重新构造回归方程,一直到模型和参与的回归系数都通过检验。
5) 模型应用:输入自变量的取值,就可以得到预测变量的值,或者根据预测变量的值去控制自变量的取值。