一、数据来源及说明
数据来源:https://www.kesci.com/home/dataset/58c614aab84b2c48165a262d
数据解释:数据集是互联网金融公司拍拍贷的真实业务数据,从2015-01-01到2017-01-30的所有信用标的样本。数据文件名称为LCIS,大小为69.6 MB,共有37个字段, 292539条信贷记录。由于字段太多,这里只对用到的业务数据进行解释。
ListingId:列表序号,为列表的唯一键
借款金额:列表成交总金额
借款期限:总的期数(按月计)
借款成功日期:列表成交的日期。都在2015年1月1日以后
初始评级:列表成交时的信用评级。AAA为安全标,AA为赔标,A-F为信用等级
借款类型:分为应收安全标,电商,APP闪电,普通和其他
是否首标:该标是否为借款人首标
年龄:借款人在该列表借款成功时的年龄
性别:该列表借款人性别。
学历认证:该列表借款人学历认证是否成功。成功则表示有大专及以上学历
征信认证:该列表借款人征信认证是否成功。成功则表示有人行征信报告
总待还本金:借款人在该列表成交之前待还本金金额
标当前逾期天数:当期逾期天数,未逾期则为0
标当前状态:当期状态,分为‘正常还款中,逾期中,已还清,已债转
recorddate:记录日期,一般为月末最后一天
二、分析维度
三、数据清洗
1、检查重复项和异常值
通过recorddate字段分组,统计ListingId的所有数量和去除重复项后的数据得知recorddate字段存在非日期数字,且记录日期中未出现2017/1/31。此外在记录日期为2016/9/30中有106个重复项。
2、选择子集
创建新表lcisnew,处理recorddate字段的异常值,删除重复项,量化逾期和逾期数。由于后期要统计逾期率,考虑到后期编写代码方便,在创建新表时,就添加了两列量化逾期和逾期期数。
3、列名重命名
4、异常数据处理
检查新表lcisnew(从记录日期检查),后获得291230条数据,67388个客户信息,以及5个记录日期。其它字段也可以按照这个方法检查。
四、构建模型及数据可视化
1、用户维度
1.1、年龄分布情况及逾期率
借款客户中年龄在22-30岁是最多的,为主力借款客户群体,其次是30-40岁。22岁以下客户的逾期率是最高的,达到了5.98%,而随着年龄的增长逾期率呈现下降趋势,说明年龄越大越清楚逾期对个人的影响,也会越注意控制自己的逾期情况。
1.2、性别、年龄及逾期分布情况
男性客户数明显高于女性,而随着年龄的增长,其借款客户总数及逾期率呈下降趋势,其中除了20岁以下的客户中女性客户的逾期率高于男性外,其他各个年龄段的男性客户逾期率均高于女性,说明在还款习惯方面,女性客户更加注重自己的信用。
1.3、学历认证及逾期情况
2015年学历未认证的客户居多,而2016年学历已认证客户逐渐上升且反超未认证客户数,成为主要借款客户,说明学历认证逐渐普及化。整体来说学历已认证客户的逾期率较低于未认证的客户,这说明学历已认证的客户发生逾期的概率比未认证的客户小,所以综合来说,已认证学历的客户都是主要的推广客户群。
1.4、征信认证及逾期情况
征信未认证的客户占绝大部分且客户数呈上涨趋势,而征信已认证的客户数量增长不明显。另外征信已认证的客户的逾期率整体上是高于征信未认证客户的,故征信认证与否与逾期并无太大的关系。
1.5、新老客户构成情况及逾期情况
2015年借款客户中新老客户差距不大,从2016年开始借款客户主要以老客户为主,并且上涨趋势明显,与新客户差距逐渐增大。2015年基本上新客户逾期率保持在较低水平,而老客户逾期率比新客户高,2016年后新老客户逾期率均有所下降,并且老客户逾期率下降幅度较大,并低于新客户逾期率。综合说明在所有客户中,老客户为主要的借款群体,且逾期率基本上能够控制在非常小的水平,是后续主要的推广群体。
2、产品维度
2.1、产品分类及逾期情况
产品类型主要包含五种——普通、其他、APP闪电、电商、应收安全标,其中普通、其他、APP闪电这三种产品为主要产品类型,其客户数量占98%以上。另外,各种主要产品的逾期率差距不大,但应收安全标的逾期率是最低的,电商的客户数不多,但逾期率却有3.24%,这是值得关注的。
2.2、不同借款金额的客户数量及逾期率
借款金额主要集中在1000-10000之间,其中3000-5000的借款客户人数最多,其次是5000-10000。而1000-10000范围的借款客户其逾期率相对来说是较低的,在3%左右的水平,而1000以下的借款客户逾期率最高,达到了4.5%以上,是值得关注的。
2.3、不同借款期限的客户数量及逾期率
9-12期的借款客户数量最多,其次是3-6期。18-24期的客户逾期率最高,达到了6.74%,3期及以下的客户逾期率最低,仅0.25%。综合客户数量及逾期情况来看,借款期限在1年以下的客户是相对来说较优质的客户,应多多推广。
五、建议
1、关于产品
a、建议减少电商产品的竞标数量,增加普通、其他、APP闪电产品的竞标数量
b、将借款金额尽量控制在10000以下,对高额度借款应加大风控及审核力度,并且在后续信用维护及催收中也应作为重点关注对象
c、重点推广并引导客户选择1年以下的短期限借款,对于较长期限的借款需求可加大风控及审核力度,并时刻关注其还款情况。
2、关于客户
a、尽量对22-40岁的客户进行定性推广,而22岁以下及40岁以上客户的借款需求则可加大风控及审核要求,并监控其还款情况以做好及时应对的准备。另外,对于22岁以下客户,建议控制其放款客户数量及金额,并在后续还款提醒中添加专属提醒,让客户爱护信用等。
b、加大对20岁以上女性客户的推广力度,并在借款的各个环节给予女性客户良好的客户体验。