风控(四)特征选择与模型评估

七、变量选择的方法

7.1 选择方法概述

1.所有变量选择算法的基本原来都是在模型中增加或从模型中移出变量,直到发现最优模型。
2.SAS中PROC LOGISTIC通过指定选项SELECTION的值在Model中调用
①使用所有变量____适用于初始探索性的模型的拟合,用来估计每个变量对模型可能的贡献度。相对于其他变量的相对强度和显著性。
②正向选择____首先只用一个截距项对模型进行拟合,然后在每一步中,检验没有纳入模型的变量并选择卡方统计量最大、符合条件的变量,直至所有变量都被纳入模型或没有变量符合进入条件。
③逆向选择____首先使用所有自变量对模型进行拟合,然后在每一步中,从模型中移除卡方统计量的p值最大的变量。
④逐步选择____最初,模型中只有截距项,然后在每一步中,用正项选择增加最优变量,用逆向选择移出最差变量。
⑤最优得分统计____使用著名的分支定界算法以找出使得模型的分数统计量(SC)最高变量的子集。

7.2 逐步变量选择

1.逐步选择法是评分卡模型开发中最常用的变量选择方法,其优点有:
①它允许模型中的每个变量在任意一步中被纳入(或被移出)模型。
②它用参数估计的Wald卡方显著性决定哪个变量将被保留在模型中。最终模型中的所有变量都是显著的。
2.无论是开发哪种种类的模型,我们都建议把Wald卡方统计量的p值大于0.3的变量都要从模型中移除。
3.强制变量进入模型:新客户可能并没有发生足够的交易,导致无法获得所有各方面的数据。因此,为了使评分卡能覆盖客户数据集中更多地领域,可以将一些申请变量强制纳入模型。

八、模型评估

1.用检验(验证)数据集运行模型被称为交叉验证,或简称检验。验证结果就是计算已知违约结果的违约概率。
2.混合矩阵:使用真正例(True Positive),真反例(True Negative),假正例(False Positive),假反例(False Negative)
混合矩阵可以用来比较对于同一个临界值,模型在一个错误方向(FalseP or FalseN)生成更多错误的原因。
3.提升图:提升图主要通过随机选择比较模型表现。
举例解释:已知特定总体的预期违约率,有理由估计,占总体10%的随机样本(即客户总体的十分之一)将包含违约总量的10%。然而,如果选择的十分之一根据模型计算的预期违约率最高,则可以预期其中违约的样本量超过总体违约量的10%。按照总体的十分之一画出这两个值就是提升图。
累计提升图被称为:洛伦兹曲线或收益曲线。
4.K-S曲线和统计量:
将总体进行十等分并按照违约概率的降序排列,计算每一等份中违约与正常百分比的累积分布,绘制出两者的差异。
KS曲线的中的最大值被称为KS统计量,其取值在0到1之间。
5.ROC曲线与c-统计量
灵敏度TPR(命中率、真正例率) = TP/P = TP/(TP+FN)
特殊性FPR(假正例率) = TN/N = TN/(TN+FP)
误报率(分类错误的正常记录比例) = FP/N = FP/(TN+FP) = 1 - FPR
受试者工作特征(ROC):分类准确的违约记录比例(TPR) 与 分类错误的正常记录比例(误报率)而得。

        Roc曲线下的面积被称为AUC统计量(c-统计量):行为评分卡建议c-统计量>=0.75, 申请评分卡可以较低。

6.整体评估:
①在进行数据描述时变量应该有意义,通常,某些变量在特定申请人的不同风险模型中重复出现。
②变量的预测力。用概率比衡量,应该在模型中使用的变量之间分布。没有一个变量能主导模型。
③模型中不应该包含太多变量,通常模型不超过10-12个变量,
④用于最终模型的变量应该能够确保包含稳健和一致的数据,并在实施阶段能够准确获得。
⑤需要根据实施阶段获取征信机构评分的预期成本判断外部征信机构数据对最终模型的贡献度。

你可能感兴趣的:(风控(四)特征选择与模型评估)