数据源:Bank_Loan_modelling
特征解释:
ID:客户账号ID
Age:客户年龄
Experience:工作经验
Income:年收入
ZIP_Code:客户所在地邮编
Family:家庭人数
CCAvg:每月信用卡还款额
Education:受教育程度,1为未毕业,2为毕业生,3为高级毕业生
Mortgage:抵押贷款数
Personal_Loan:是否参加这次抵押贷款
Securities_Account:在本银行是否有秘密账户
CD_Account:在本银行是否有存款账户
Online:是否开通网上银行
CreditCard:是否有信用卡
Thera Bank是一家业务快速增长的银行,拥有大量的尚未发生贷款业务的存款客户,为了识别潜在客户的购买可能性较高的贷款,这样可以增加成功率 , 同时降低了成本,他们随机选取了5000名顾客进行了一次贷款业务的营销宣传尝试,获得了超过9%的转化率。
这次报告的目的,就是分析这次营销活动的结果,哪些因素对于贷款的达成起到了比较重要的作用,为获客、激活、留存和变现的环节提供数据支持,并且给出A/B-test方案,快速验证数据指标间的相关关系是否为因果关系,有针对性的进行营销,获得更高的收益。
1、各因素与贷款情况总析
先根据各因素数据的特点,进行描述性统计分析,并且初略评估各因素与贷款情况的回归关系。
2、二元关系分析
根据1中的相关性大小,分析影响因素大的数据和贷款的关系。
3、多元关系分析
再根据2中的结果,查看多元分组后,是否存在特殊的情况,从而进行特殊对待。
4、总结和建议
通过上述分析,在获客,激活,留存三个方面给出有数据支撑的建议,并且通过A/B-test验证某些数据指标间的相关关系,是否存在直接的因果关系。
现将数据导入python中,输入分析需要的模块
查看数据集的整体情况
通过观察,发现工作经验存在负值,根据经验,工作经验和年龄及受教育程度是高度相关的,所以将工作经验为负值的数值,转换成相同年龄和受教育程度的中位数值。
数值变量之间的关系
1、年龄和工作经验的分布,接近于平均分布,各个年龄段分布比较合理,分箱时,适合按数值等值分箱;
2、收入,信用卡还款额和房屋抵押租赁,接近于幂律分布,而且没有房屋抵押租赁的用户占大多数,分箱时,最好能特殊情况分出One-Hot特征;
3、城市地址对于其他特征的影响很小,基本可以推断,影响可以忽略不计;
4、随着收入的增多,信用卡的还款值和房屋抵押贷款值的最大值,是线性增加的,这是符合常识的。
离散型变量之间的关系
从图中,可以得出以下结论:
1、家庭、教育、网上银行及信用卡率的分布比较均匀;
2、个人贷款,私密账户率及个人存单率的分布是属于不均衡分布,所以,个人贷款的评估标准,应该以查全率(recall)和查准率(precision)作为评估的标准。
1、和开通信贷强相关的变量有:收入,信用卡还款额及是否有该银行存单账户;
2、和开通信贷弱相关的变量有:受教育程度,房屋抵押贷款数,家庭人数;
3、年龄、工作经验、邮编、是否是私密账户,是否开通网上银行及是否有信用卡,关系都不大;
4、因为年龄、工作经验都是连续的数值变量,所以需要分箱后再做观察,看看是否有某一段存在特殊值。
从3.1.4中,我们知道,是否有该银行存单账户是强相关变量,受教育程度,家庭人数是弱项关变量,我们下面来一一看看这三者和开通信贷业务的关系。
银行存单和开通信贷的关系
结论:可以看出,开通了银行存单账户的客户,其申请贷款的可能性是没有开通的6倍多。让尽可能多的客户开通该银行存款账单是一个提高申请贷款率的可能选项。
受教育程度对于申请贷款业务的影响
结论:从图中可以看出,没有大学学位的人,对于申请贷款的意愿明显低于受过高等教育的人,但是收到高等教育之后,更高的学历对于申请贷款的可能性的提高很小。提升贷款申请率的可能方式可以是,尽可能是争取更多的高学历客户。
家庭人数对于开通贷款业务的影响
结论:当家庭人数只有1或者2个人的时候,申请贷款的可能性较低,而当人数达到三人时,申请贷款率猛增,当家庭人数达到四人时,申请贷款率又下降了,很有趣的现象,这种情况下需要结合其他的因素一起观察,将在下一节进行讨论。可以着重加强对于家庭人数为3的客户的宣传。
从3.1.4中,我们得知,收入,信用卡还款额,抵押贷款数对申请贷款是有影响的。
在观察数值变量对于分类变量的影响时,我们先将数值变量分箱,然后查看每个箱中目标变量的均值随自变量变化的关系。
贷款开通率随收入增长的变化
结论:从图中可以看出,当年收入超过82时,贷款意愿大幅上升,而且收入越高,贷款的意愿越强。
贷款意愿随信用卡还款额的变化
结论:当每月信用卡还款额大于2.8时,申请贷款率会增大将近4倍。可以将宣传的重点,放在信用卡还款额大于2.8的客户中。
贷款意愿随房屋抵押值的变化
结论:当房屋抵押值大于254时,贷款申请的意愿有明显的提升,当大于508时,一半以上的人,都会申请房屋抵押贷款。
从3.2中,我们得到有六个变量对于申请贷款是有关系的,分别是:
离散变量:存单账号,受教育水平,家庭人数
数值变量:收入,信用卡还款额,房屋抵押贷款值
目标值:申请贷款
收入、信用卡还款额与抵押贷款数对于贷款率的影响
结论:
1、低收入和低信用卡还款额的用户,显然不喜欢申请贷款,而且两者的边界特别明显;
2、相同收入下,信用卡还款额多的用户,也不愿意申请贷款;
相关性分析
1、从图中可以看出三个数值变量之间的两两关系分别是:0.11,0.21,0.65,显然和上面的分析吻合;
2、三个离散数值变量之间的两两关系分别是:0.065,0.014,0.014,显然相互之间没有很大的相关性,再次进行检验;
3、存款存单和收入及信用卡月还款之间有一定的联系(0.17,0.14),可以查看下这三者和贷款申请的关系,因为受教育程度和申请意愿关系也比较大,所以再加上受教育程度,看看这个5者的关系。
存单账户及受教育程度和收入及信用卡月还款于申请贷款的关系
结论:
1、存单账户中的高收入人群,对于贷款的意愿是极高的;
2、低收入人群,不论是不是该银行的存单账号,对于申请贷款的意愿都是极低的。
3、当收入在110以上,信用卡月还款额度在3以上且有大学文聘的客户,申请贷款意愿在97%以上。
1、 在所有特征中,有三个连续数值特征(收入,信用卡还款额,房屋抵押额)和三个离散数值特征(银行存单客户,受教育程度,家庭人数)是对申请贷款率有较大的影响的;
2、在银行有存单账户的客户,申请贷款的意愿远高于没有的,有大学学位的客户高于没有的,家庭人数为三人时,存款意愿最高;
3、低收入和低信用卡还款额的用户,显然不喜欢申请贷款,而且两者的边界特别明显,并且在相同收入下,信用卡还款额到收入极限的用户,也不愿意申请贷款;
4、当收入在110以上,信用卡月还款额度在3以上且有大学文聘的客户,申请贷款意愿在97%以上;
5、在有银行存单账户的顾客中,除了没有大学文聘且单身或者家庭人数只有两人的,申请贷款的意愿都相当高,成功率在43%以上。
1、在留存及变现方面,对于已经进行过贷款宣传的客户,可以在银行存单方面下功夫,促进其成为银行存单用户,再进行A/Btest,看银行存单用户在转换过程中,对于申请贷款的实际影响;
2、在激活方面,对于还没有进行宣传贷款的客户,进行精准的营销,减少营销的成本;
3、在获取客户方面,对于业务人员的工作,应该将收入,信用卡还款额,房屋抵押额,是否有意愿开通存单,受教育程度和家庭人数六个方面作为拓展新客户的标准,以最小的投入,达到最好的成果。