Logistic回归预测模型—— 整体概述(也适用于其他回归模型)

模型构建 —— 模型评价 —— 模型验证 (整体思路)

**1:变量筛选
先单后多
即先进行单因素分析,将单因素有意义的变量再一起纳入多因素模型中。这样操作最为简单,并且在大多数情况下都是可行的。
但有时,比如变量数目过多、变量间存在共线性或者缺失值较多而不愿舍弃掉含有缺失值的样本,先单后多就存在诸多局限性。

如何克服这些问题呢?
我们可以使用一些具有自变量筛选功能的方法。
比如对于共线性问题,可以借助岭回归、Lasso、弹性网络模型来解决。而对于存在缺失值的情况,可以使用随机森林模型。

**2: 变量筛选方法
这里呢先将具有自变量筛选功能的常见方法,

  • 逐步回归 (涉及向后法、向前法、向前向后法)
  • 正则技术 (涉及岭回归、lasso、弹性网络模型)
  • 随机森林模型 (树模型的扩展)
  • 主成分分析(这里是提取多个自变量的主成分,将主成分得分作为最终的自变量)

**3:模型评价
在模型评价中,可以从不同角度出发,利用多种指标评价模型的拟合情况。为什么要评价模型呢?
因为在模型构建过程中,所拟合的模型不一定是最优模型或者说不是一个好模型,也就是可能存在欠拟合情况
常见的评价指标主要有以下几种。

-D拟合优度检验(涉及卡方值及P值)
-ROC(涉及AUC. sen.spe. accuracy等指标)3calibration(涉及c-index的计算)
或者直接计算终极指标MSE的计算

**4:过拟合+模型验证
通常来讲﹐完成模型评价已经可以称之为“完整”的研究。
但是很多人会忽略掉过拟合这种情况,也就是结果的外推性究竟如何。
什么是过拟合,简单的讲过拟合会造成这样一种情况,就是所构建的模型对于本次数据,显示出很好的效果,但是将这个模型用于预测另外一份全新的数据时,可能会呈现出效果不理想的状态。
所以我们需要进行模型验证。模型验证的方法也是非常多,这里罗列常用的几种。

  • ocross validation (涉及简单交叉、K-fold corss validation、N-fold crossvalidation) ,其中简单交叉最为常用,但严格意义上来讲简单交叉并不是“交叉”。
  • bootstrap
  • cross validation+bootstap

****5:备注
最后,再来一次总结,需要说明的是,模型构建、模型评价、模型验证这个过程可能需要多次操作,才可以得到最终的结果。
比如在模型评价阶段,发现模型存在欠拟合状况,或者在模型验证阶段,发现模型存在过拟合状况,这时候都需要返回模型构建阶段重新拟合模型。

你可能感兴趣的:(Logistic回归预测模型—— 整体概述(也适用于其他回归模型))