双峰数据和长尾数据

(1)双峰分布原因及解决方案

1.好坏客户定义模式

根据项目初期的好坏客户定义,评分分布出现了双峰分布。考虑到好坏客户定义与实际业务模式相差较大且坏客户占比过低,采取重新定义好坏客户。

2.违约模型(先息后本和等本等息的混合模型)录入系统变更

通过对两个信用评分卡模型中的变量进行比较与分析后,我们发现其中一个共有变量,即配偶知晓贷款,在两个模型中的得分都很低。于是我们在原始数据中对该变量进行深入分析,发现该变量在2014年12月27日之后就没有缺失值了。同时,我们也发现居住类别变量在该时间点之后也没有缺失值了。于是我们判断在该时间点该P2P公司发生过较大变动。经过跟对方的接触,证实在该时间点该P2P公司确实做过有关申请界面、必填字段、风控把控等的相关调整。就配偶知晓贷款这个变量而言,在录入系统调整之前有缺失选项;在调整之后,没有缺失选项,系统默认值为“是”。

由于录入系统发生了较大的更改,更改所在时间点前后的数据是不同的,我们决定采用该时间点之后的数据再次建模。

3. 申请模型

发现出现双峰,我们考虑是否因为某个变量对变量预测有重要作用,造成该变量分数分布对总体信用评分分布有重要影响。为找出这个变量,在计算总体评分时,按照模型变量的IV值,从大到小依次删除变量,观察删除某个变量后信用评分的分布情况。发现当删除银行卡月均流水变量后,信用评分分布的直方图如图8所示,发现双峰消失,由此确认双峰问题是由于银行卡月均流水变量引起的。

由于删除银行卡月均流水变量后的信用评分分布并不是标准的正态分布或者近似正态分布,从而进一步分析:统计银行卡月均流水变量各分类下的分数和对应的样本量。发现在频数相等的情况下,流水小于等于39000元和大于39000元两类分值相差较大。于是继续考虑是否因为银行卡月均流水变量的小于等于39000一类分数过低,与其它分类的分数相差较大,使得总体信用评分不满足标准正态性。

从而,通过对变量分数的调整,我们将双峰分布重新调整为单峰分布。

(2)长尾数据

二八法则说的,20%的品牌占据了80%的市场。

长尾效应的根本就是强调“个性化”,“客户力量”和“小利润大市场”,也就是要赚很少的钱,但是要赚很多人的钱。要将市场细分到很细很小的时候,然后就会 发现这些细小市场的累计会带来明显的长尾的效应。

你可能感兴趣的:(数据,数理统计方法)