数据挖掘-Logistic回归建模

Logistic回归建模

 

       Logistic回归属于概率型非线性回归,对于二分类的Logistic回归,因变量y只有“是、否”两个取值,记为“是、否“两个取值,记为0和1。假设在自变量想,x1,x2.......,xp  作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的概率p与自变量x1,x2,x3……, xp

 的关系。

Logistic函数

  Logistic回归模型中的因变量只有1-0(如是和否、发生和不发生)两种取值。假设在p个独立自变量x1,x2……xp  作用下,记y取1的概率是p=P(y=1|X),取0的概率是1-p,取1和0的概率之比p/1-p (odds),称为事件的优势比,对优势比取自然对数即得Logistic变换Logit(p)=Ln(p/1-p)。

令Logit(p)=Ln(p/1-p)=z,则p=1/1+e-z  即为Logistic函数。当p在(0,1)之间变化时,odds的取值范围是,则Ln(p/1-p)的取值范围为

Logistic回归模型

  Logistic回归模型是建立在Ln(p/1-p)与自变量的线性回归模型

 Logistic回归模型为:

         

Logistic回归建模步骤

Logistic回归模型的建模步骤如下图

 


1)  根据分析目的设置指标变量(因变量和自变量),然后收集数据。

2)  Y取1的概率是p=P(y=1|X),取0的概率为1-p。用Ln(p/1-p)和自变量列出线性回归方程,估计出模型中的回归系数。

3)  进行模型检验:根据输出的方差分析表中的F值和p值来检验该回归方程是否显著,如果p值小于显著性水平 则模型通过检验,可以进行下一步回归系数的检验;否则要重新选择指标变量,重新建立回归方程。

4)  进行回归系数的显著性检验:在多元线性回归中,回归方程显著并不意味着每个自变量对y的影响都显著,为了从回归方程中剔除那些次要的、可有可无的变量,重新建立更为简单有效的回归方程,需要对每一个自变量进行显著性检验,检验结果由参数估计表得到。采用逐步回归法,首先剔除掉最不显著的因变量,重新构造回归方程,一直到模型和参与的回归系数都通过检验。

5)  模型应用:输入自变量的取值,就可以得到预测变量的值,或者根据预测变量的值去控制自变量的取值。

 

你可能感兴趣的:(数据挖掘,Logistic回归建模)