Lending Club开源数据分析

Lending Club开源数据分析

数据来源:https://zhuanlan.zhihu.com/p/25138563
分析工具:excel、SPSS 22

数据分析学习&尝试。第一次分享。欢迎斧正。

1、Lending Club评级的准确性

结论:评级基本准确。可以在一定程度上预测还款情况。

sub_grade字段下,不同loan_status状态的占比可以看出端倪。(剔除部分脏数据/业务含义不明确的loan_status,如Does not meet the credit policy. Status:Fully Paid)

非常明显,评级越差,Fully Paid(已经全部付清)状态占比越低。
Lending Club开源数据分析_第1张图片
X轴sub_grade指放款时的评级,Y轴是各sub_grade中Fully Paid状态用户在各自sub_grade中的占比

形成印证的是,评级越差,Charged Off(出借方已核销的不良贷款)占比越高。

Lending Club开源数据分析_第2张图片
X轴sub_grade指放款时的评级,Y轴是各sub_grade中Charged Off状态用户在各自sub_grade中的占比

关于上面两张图中E-G间,尤其是G grade上趋势的跳脱、不规则,原因可以从样本量上解释。整体样本近似正态分布,F、G,尤其是G的样本量太少,会导致统计意义变差。
Lending Club开源数据分析_第3张图片
X轴sub_grade指放款时的评级,Y轴是各sub_grade中样本数量

2、评级的相关因素

用SPSS分析评级的相关因素。此处对评级做数据处理,按A1-G5,分别赋值从35至1。

  1. 评级与收入相关,但呈负相关
    随着评级分增高(即评级越好),收入呈下降趋势。
    Lending Club开源数据分析_第4张图片

  2. 评级与贷款利率无关… 不合常理…
    Lending Club开源数据分析_第5张图片

  3. 评级多和信用情况相关
    Lending Club开源数据分析_第6张图片
    Lending Club开源数据分析_第7张图片

  4. 其他发现:还款期数与收入正相关,即收入越多的人,还款周期越长。因还款周期越长,风险越大;猜测审批时,只有收入足够多,长还款周期(60months)才能顺利通过审批。
    Lending Club开源数据分析_第8张图片

你可能感兴趣的:(数据分析,SPSS,Excel)