【风控】评分卡建模的流程和要点

评分卡建模的流程和要点

一、数据预处理

1、数据去重:删除重复的样本
2、缺失值处理:确定缺失值的标记,统一转化为统一标记的缺失值(null或者Nan),后续分箱进行处理。
3、错误数据的处理:格式不对或者不符合业务逻辑的数值,可以看作缺失值,或者标记为异常值。
4、异常值处理:针对评分卡,在分箱过程中可以完成异常值的的处理。

二、数据分箱

分箱的意义:一是增强模型的稳定性,二是可以很好的处理缺失值和异常值,三是简化了模型,四是结合评分卡提高了模型的可解释性。

文本特征的分箱:

1、对于分类数量较少(小于10类)的特征,可以按照其分类进行分箱;
2、对于类别数量不是特别多的特征(几十个左右),最好是按照其内在逻辑进行合并和聚类,比如省份按照地区、经济水平等外在特征进行聚类和合并;
3、针对数据维度特变大的:一是可以看其分类占比,如果存在其中几种类型占比较大,可以将少数占比归为其他进行分类;如果所有分类占比都极小(如公司名称和详细地址等字段)则可以通过文本信息提取,提取关键信息。

数值特征的分箱

分箱的关键点是确定每个区间的分割点。常用分箱手法有:等频率(分位数分箱);等距分箱;决策树分箱;IV(KS)最大化分箱;卡方分箱等。
数值分箱要点
1、单调性:分箱之间的单调性和趋势要符合业务逻辑,趋势一般有单调递增、单调递减、先增后减等;
2、稳定性:保证在不同数据集上分箱的趋势一致,不能在一份数据上单调递增,另一份单调递减;
3、最小样本比例:一般最小样本的占比为0.05;

缺失值的处理

对于缺失值比较多的一类,可以单独进行分箱,无需考虑其单调性;对于缺失值占比很少的部分,一是合并至数量最多的分箱,二是合并至坏样本率最相近的一箱;

三、分箱编码

一般使用各分箱的woe值进行编码

四、特征选择

特征选择的第一步重要是使用过滤式方法进行选择:
对于特征数量较多的情况,可以先用计算简单的指标进行过滤:如IV,相关系数,fisher值等
进一步可以使用计算复杂的特征:如MIC,单个特征时候模型的评价,特征重要程度和boruta等
还需确定特征之间的相关性,避免模型的多重共线性;
在完成过滤式之后(剩余特征在100个之内),可以通过特征选择策略(选择指标使用auc或者ks,验证方法使用交叉验证)完成模型最终特征的确定。可使用前向搜索法和特征检验法;

五、模型建立

对于逻辑回归而言,不存在模型选择和参数调节,使用sklearn应该注意的是设置class_weight;

六、模型检验

1、模型的检验:可以包括常用的KS和AUC值;
2、多重共线性检验:VIF和特征相关性
3、系数的检验:系数的符号统一为正,系数的显著性检验;
4、预测结果的分段情况:预测结果的分箱和坏样本率变化情况。
5、特征的意义检验:特征的业务意义和模型表达的是否一致,特征的分箱单调情况是否和业务一致。

你可能感兴趣的:(机器学习鸭,python,评分卡)