lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象

Lending Club,P2P平台,公司位于美国旧金山,是美国最大p2p网络贷款平台公司。官网截图如下。
lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第1张图片

Lending Club是P2P鼻祖,国内金融机构对其大名无所不知。Lending Club成立于2007年,最初100%专注于个人投资者,多年来逐渐转向了更加关注机构投资者的方式。Lending Club曾是美国最早、业务量最大、最为著名的P2P网贷机构,在早期的金融科技公司浪潮中一直处于领先地位,2014年Lending Club上市时,其市值超过90亿美元。自成立以来已经为超过600亿美元的贷款提供了便利。

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第2张图片

2014年12月12日,LendingClub正在通过IPO获得大量资金。该公司再度上调了发行价至每股15美元,并增发30万股,使其总融资金额达到了8.7亿美元,2014年总市值达54亿美元 。LendingClub于2014年12月12日开始在纽交所挂牌交易,代码LC。

Lending club 历年股价如下图,在2020-2022年大起大落。
lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第3张图片

2021年,Lending Club宣布转型成功,已获得完成对数字银行Radius Bancorp的收购所必需的所有银行监管批准,公司预计此次收购将在2021年2月1日或前后完成。此次董事会转型恰逢Lending Club收购Radius获得了银行监管部门的所有批准,并成为美国第一家上市的新银行,准备为普通美国人重新定义银行业。

作者认为lending club之前业绩亏损,转型数字银行后,lending club可获得新的融资渠道。

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第4张图片

我方可提供lendingclub2007年-2020年Q3 数据集,共292万多条数据,142个变量,内存占用3.1GB。Lending club数据量大,变量丰富,是理想的机器学习建模各种算法实验的数据集。金融科研机构可用于数据清洗,变量筛选,调参,多算法比较,非平衡数据处理等测试。


数据集还提供变量的英文释义。

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第5张图片

作者认为Lending Club数据集有较大价值,大力呼吁关注Lending Club数据集。Lending Club数据集收集了292万美国人(1/10人口)的网络贷款数据,跨时13年,包含年龄,收入,职位,地理位置,贷款目的,信用评级等海量信息。Lending Club数据集可用于我们对美国人的经济,人口,社会,工作,政治的数据分析和用户画像。深度挖掘信息还可用于军事决策和我国对美国外交政策制定的辅助依据。

举个例子,作者从lending club 2018年数据挖掘中发现:

贷款金额

lendingclub平台给个人贷款金额大多在1万-2万美金,较高金额的贷款数量较少,此平台主要是小额贷为主。
作者用核密度估计(kernel density estimation)来绘制贷款金额分布。核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。

sns.distplot(data.loan_amnt,kde=True,color='blue')
sns.despine(top=True)

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第6张图片

lendingclub平台贷款周期占比分析

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第7张图片

通过绘制饼状图,我们得到lendingclub平台贷款周期分为36个月与60个月,主要以36个月为主,60个月的比重31%左右。在p2p平台上以短期贷款为主,长期贷款也有,利率较高,但周期较长。借出人收获利息,承担风险,而借入人到期要偿还本金。贷款周期越长,对借出人来说风险越高。

lendingclub平台贷款人工龄分布图

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第8张图片

从图中可以看出,贷款人中工龄为10年以上频率最多。

贷款人收入水平

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第9张图片

通过上图发现,美国贷款人收入水平中年收入在0-5万美元的占比最高,30.53%左右。其次是5万-10万区间,11万-30万年收入区间占比逐步变小。

贷款人年收入,贷款等级,收入验证多因子分析

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第10张图片

lending club会对客户收入进行验证,这非常值得国内平台学习。贷款人的收入水平信息分为三种情况:已经过LC验证,收入来源已验证,未验证。这三种情况目前从图中看出LC验证,收入来源已验证,未验证的收入数据还是有显著区别。另外贷款等级与收入水平在整体上呈正相关的趋势。

借款人住房状况分布图

lending club2007-2020年Q3数据集-292万数据,142个变量,理想金融科研和机器学习建模对象_第11张图片

一半用户房屋状态是抵押贷款,只有10%用户拥有完全的产权。看来美国房奴大军不小呀!接着用pandas的stack和unstack函数对grade和home_ownship两个等级变量做数据深度清洗,然后绘制下图。通过观察贷款等级越高用户按揭占比越高,租房占比越低,反之亦然。自有住房占比每个等级略有不同。

Lending Club由于数据量太大,部分数据挖掘就为大家展示到这里。作者剧透一下,从Lending Club数据集里可以挖掘出美国经济不稳定因素和金融危机爆发因素。有兴趣朋友可以去深度挖掘。

随着收购Radius Bancorp全面获批,也宣告着Lending Club已从P2P平台彻底转型成功,已经成为第一家收购银行的金融科技公司。去年10月,Lending Club宣布于2020年底关闭其P2P平台,个人投资者将不再能够投资于Lending Club发放的任何贷款。因此2020年后Lending club数据集已经无法获取,我方拥有Lending club2007-2020年,共13年数据集。

如果有对lending club建模有兴趣同学,可以收藏python风控建模实战lendingClub

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

你可能感兴趣的:(论文毕设,数据分析,金融,lendingclub,lendingclub数据集)