【金融申请评分卡】数据准备 - 造衍生变量

评分卡开发在数据整理好之后,我们的重点工作就是创造衍生变量了!

造衍生变量是整个开发评分卡模型过程中最重要、最艰辛也最有趣的一个节点。最重要是因为衍生变量的好坏往往会影响评分卡模型的各种测评指标,决定策略的反欺诈能力;最艰辛是因为造衍生变量除了要基于业务变量理解之外还要开发人员大开脑洞组合基础变量,有很多时候花了一天时间造好一两个衍生变量但最后都进不了模型,这个时候就又要重新去开脑洞进行变量的组合。当然现在也可以结合一些算法比如决策树、随机森林进行特征工程造衍生变量,但是造好的变量是否可以进入评分卡模型以及是否容易在策略引擎上部署等问题又要反复校验(如果你公司是基于Python或则R自主开发的决策系统,那衍生变量的部署就变的比较方便);最有趣当然好理解啦,因为造变量过程的艰辛,整个评分卡开发流的重要性决定了我们造好变量进入模型上线部署的成就感!

那么大家可能会问,到底如何造衍生变量呢?

It depends on you!

既然我说了造衍生变量是一个开脑洞的活儿,每个人的脑洞又不一样,当然没有一个绝对的逻辑或者公式去套用了,但是有一些造变量的小技巧和小套路,帮助大家可以很快的开启脑洞造出变量IV很高的好变量。

Tips1:善用产品准入规则变量,弱弱联合会变强;

Tips2:多参考Strategy变量,往往有意想不到的效果;

Tips3:风控核心防欺诈,设身处境去思考;

Tips4:风控基本出发点是评估个人还款能力和还款意愿;

Tips5:合理利用一些算法,省时省力又高效;

实际操作中大家需要注意以下几点:
1、决策树节点前先做数据分区,筛选出Train data和Validate data;
2、注意调整决策树节点的属性栏,重点可以聚焦在拆分规则、节点、交互式抽样里的条件设置;
3、交互式决策树在属性-训练-交互式打开;
4、在打开的交互式决策树里进行节点的拆分、训练以及修建节点;
5、注意关注决策树里训练样本和验证样本好坏比例的变动幅度。

更多金融风控知识,请关注【金融科技应用学苑】公众号。

你可能感兴趣的:(金融评分卡)