项目5 金融单变量分析

日常监控发现某消费贷产品首逾率有逐渐升高趋势，需要把首逾率降下来减少产品损失

导入数据，得到56456行，9个字段的用户数据，涵盖申请用户的年龄、职业等各方面信息

总体来看，产品逾期率超过30%,逾期情况不容乐观

单变量分析：目的在于筛选出好坏区分较好的变量以便制定策略，在消金公司的日常工作中，会有专门负责爬取变量和计算加工变量数据的团队，他们在不断的去获取加工很多可能对风险控制有帮助的数据提供给我们风控团队，而我们风控人员就需要从这成千上万个变量中探查出能够控制逾期风险但同时又不会误拒很多好客户的变量。

拿到数据的第一步就是针对每个变量单独分析，查看其对逾期的影响。其步骤如下：

在进行变量分析之后，这时我们就要从中筛选中较为有效的变量了，这里涉及到一个衡量变量是否有效的指标，提升度。

提升度：通俗的来说就是衡量拒绝最坏那一部分的客户之后，对整体的风险控制的提升效果。提升度越高，说明该变量可以更有效的区分好坏客户，能够更少的误拒好客户。

计算公式：提升度=最坏分箱的首逾客户占总首逾客户的比例 /该分箱的区间客户数占比

例如：上表中征信总查询次数的最坏分箱提升度就是（1923/17365）/(3213/56456)=11%/5.69%=1.93 提升度这个指标一般来说都是用来一批变量分析里做相对比较，很多时候都是在有限的变量里尽可能选提升度更高的变量来做策略。

如下，通过对所有变量的提升度进行倒序排列，发现个人征信总查询次数和客户信用评级的提升度最高，达到1.93和1.71。

通过计算得到，征信查询次数和征信评级的提升度分别为1.94和1.71，前者对于降低首逾率更为有效

通过上一步的单变量分析，我们筛出了’征信查询次数’、‘信用评级’这两个提升度最高的变量。现在我们看一下如果将这两个变量的最坏分箱的客户都拒绝之后，对整体逾期的影响。这个影响就是指假设我们将‘征信总查询次数>=21的3213位客户全部拒绝’之后，剩下的客户逾期率相比拒绝之前的逾期率降幅是多少。

将首逾率最大的区间拒绝掉之后，征信查询次数和征信评级的首逾率分别可降低1.75%，3.66%。