评分模型的缺失值

                                                         公式模型必须处理缺失值

       构建评分模型过程中,建模属于流程性的过程,耗时不多,耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型,不同形式的模型对缺失值的宽容程度不同。

        公式模型必须处理缺失值,如果不进行处理,则缺失值对应的该条观测会被排除在建模样本之外,如回归模型、神经网络等都需要进行缺失值的处理。

        算法模型对缺失值比较稳健,这类模型会将缺失值单独划分为一类,但算法模型对缺失值的宽容也带来了模型稳定性弱的弊端,如决策树

                                                                  补缺原则

        一般情况下,缺失值填补的底线是,补缺后变量数据的分布不可以发生显著变化。缺失值的填补我通常会遵循这样的原则

  • 通常如果缺失值比例超过80%

你可能感兴趣的:(SAS,缺失值填充,决策树,逻辑回归,哑变量,插补)