大数据技术在P2P监测系统的应用和实践

【摘 要】:近年来,随着互联网金融行业的迅猛发展,P2P平台数量激增如雨后春笋般涌现,虽然推动了互联网金融生态系统的形成并促进了金融服务的繁荣。但是由于缺乏对互联网金融行业风险的有效控制,导致P2P行业屡屡发生倒闭、跑路、兑付危机等负面事件,不但使广大金融投资者损失惨重,也扰乱了国家的金融秩序,给社会带来了不安定因素。
互联网金融协会为了全面、及时掌握P2P行业发展情况, 监控P2P机构运营风险,行使的监管职能,制定和发布了相关的监管制度和措施,在一定程度上保证了P2P行业的健康发展。为了适应P2P行业和快速发展,引入信息系统的技术支持势在必行。而传统的报表模式和传统的数据库技术已经越来越不适应现在的实际需求。
在P2P监测系统中采用了大数据技术。通过大数据技术的应用,能够直接分析企业的生产的最明细的数据,能够更加直观的分析出整个行业的发展趋势和前景。从而为整合行业的发展和相关决策提供更加有效的支撑。
【关键词】 大数据、P2P网贷、风险监测
建设背景:目前,互联网金融行业在迅猛发展的同时,其风险问题也逐渐突出。党中央、国务院高度重视互联网金融规范发展和风险防范工作。2015年7月,经党中央、国务院同意,人民银行等十部委联合印发《关于促进互联网金融健康发展的指导意见》(银发〔2015〕221号),正式确立了互联网金融基本业务规则和监管安排,并明确了中国互联网金融协会作为国家行业自律组织的功能定位。
中国互联网金融协会,作为由中国人民银行会同银保监会、证监会等国家有关部委组织建立的国家级互联网金融行业自律组织,启动开展新的互联网金融监管服务平台建设工作,扭转某些业态偏离正确创新方向的局面,防范互联网金融风险,建立行业规范发展长效机制具有紧迫性、必要性。
在系统建设之初,运营信息表中数据粒度非常大,按照各分类进行无法细分,从而无法进一步去研究整个行业的发展趋势和发展动向。同时运营信息表更新时效性比较差,机构的月报报送周期一个月以上,不能及时准确的实现对相关信息的统计,难以及时的发现问题。
在数据处理方面也存在问题,首先,数据孤岛情况较多,各系统数据未实现统一存储、统一管理;其次,数据规模急剧增长,从GB级到TB级乃至PB级。传统的数据库系统可扩展能力不足,无法进行海量数据处理;另外,数据处理延时长,现有数据库系统难以实现大规模运算。
原有的协会系统面对互联网金融行业大量的行业监管服务业务,原有系统的业务处理能力和智慧化水平均与实际需要存在很大差距。服务类业务也急对服务业务进行体系划分、梳理,以便提升用户体验。

P2P实践回顾–功能架构:

为能够提供给监管部门实现对P2P行业有效提供信息支撑,P2P监测系统通过从各个维度采集相关数据功能上分为总体概况、条件查询、平台查询和灵活查询四个功能模块。
总体概况,主要从地区和时间区间维度统计P2P行业的平台数量、交易金额、借款余额、借款期限,收益率和借款人/出借人情况等。能够通过不同的关键指标项,向监管部门展示整个P2P行业发展的情况。
条件查询,主要从借款信息、还款信息、借款人信息、出借人信息四个维度提供监管部门更细颗粒度的各类指标查询,便于监管部门及时发现和定位风险。
平台查询,主要通过筛选目标类型平台,采集并统计P2P行业某个平台的基本信息、经营信息、信息披露、数据比对、法律风险、经营风险、企业关联、舆情信息。当监管部门定位到某个具体的P2P平台时,该功能模块能从各个维度向监管部门展示该平台的综合情况,为监管部门决策提供依据。
灵活查询,以P2P项目为基础,通过对P2P行业不同类型项目展开各个维度和各个指标灵活分析,帮助监管部门统计P2P行业的各项数据,有利于监管工作的有效开展,提升工作效率。
**

P2P实践回顾–技术架构

**
数据采集层:采集方式主要通过SFTP方式进行数据采集和抽取,同大数据平台数据直接对接,主要采集内部业务系统数据和第三方采购数据;
数据存储计算层:采用分布式存储,方便快速扩展。数据存储主要采用HDFS分布式文件系统、Hive、MPP数据库、内存数据库、MySQL数据库来支撑,主要实现大量数据高效、安全地长期保存,快速和简单管理维护。结构化数据存储采用了HIVE+MPP+关系型数据库,HIVE数据库主要用于数据的离线处理,而MPP作为业务存储,关系型数据库用于统计结果保存和数据事务操作,非结构化数据存储主要采用CEPH存储方式。
服务应用层:主要是基于处理完成的数据进行加工,通过可视化图形展现的方式分析各类指标,为业务分析应用提供数据支撑。
大数据技术在P2P监测系统的应用和实践_第1张图片

P2P应用实践回顾–基础平台建设

P2P监测系统项目建设自17年10月份启动,在17年11月底完成正式部署上线,截止到目前,大数据平台集群规模达到20多个节点,初步实现了数据采集落库到大数据平台上,形成平台+应用的建设模式,并上层应用提供了高效支撑;
其中在17年11月,搭建了基础平台2+10台服务器,并部署MPP数据库和数据治理工具,实现了工具化、配置化的开发能力,接着在18年10月,对大数据集群又进行了硬件配置扩容,同时在18年11月扩充10个集群节点,大大提升平台计算能力和存储能力。
P2P应用实践回顾–数据采集汇聚
P2P监测系统依靠大数据平台采集多种数据源,涵盖网贷之家、统计系统、信息披露、举报系统、产品登记、银行存管、第三方采购(工商信息)、最高法(涉诉信息)等,同时制定数据采集流程规范,数据统一汇聚到大数据平台。
1)数据采集结构如下图所示:

2)P2P监测系统数据存储情况:
数据内容 月增数据量 年数据量 年存储容量
(关系型数据库) 年存储容量
(非关系型数据)
统计系统交易明细数据 192W条 2304W条 23G 69G
工商数据 12W条 144W条 14G 42G
涉诉数据 4.2W条 50.4W条 0.5G 1.5G
举报系统 9.6W条 115.2W条 1.1G 3.3G
违规广告 (结构化数据) 100W条 1200W 12G 36G
违规广告(非结构化数据) 100W条 1200W 60T 180T
舆情数据 500W条 6000W条 60G 180G
平台数据 192W条 2304W条 23G 69G
3)、数据加工处理情况:
流程名称 单次加工消耗的时间 涉及最大表的数量级
风险监测合规风险 28小时 亿级
风险监测法律风险 10分钟 千级
风险监测工商和其他风险 11小时 千级
风险监控计算多头数据 12天 亿级
P2P监测系统建设成效总结
根据行业标准规范、法律法规等相关政策说明以及行业类的风险模型,编写出《风险预警模型指标第三版改》文档,通过大数据进行P2P风险评估,针对平台上采集到P2P机构的生产级的明细数据,运用大数据技术精准的监测出每一笔业务的情况,初步实现风险预警模型建设,从而实现了以大数据为基础的监测分析系统,完善了P2P行业征信体系。
P2P监测系统建立了多维数据风险预测模型,在采集到机构上报明细级数据之后,从机构数据上报、业务分析、异常数据判定、机构风险监测这四个角度集中的体现大数据技术在相关实际使用场景中的合理运用。从而更早和更加精准的预防行业风险,为整个行业发展做出重要价值。
P2P监测系统建设成效—机构数据上报
上报数据是实现监管的基础,没有一个合理数据上报就无法办法做到准确数据分析。从上报的角度来监管行业的实际发生情况,从机构上报的角度也能从一定的程度上检测出机构是否出现异常。从18年开始的产品登记推广开始,就陆续监测到了一些P2P机构上报数据异常的情况,疑似出现经营风险问题。比如合力贷、口袋理财等相关机构出现异常情况频率比较高。
机构上报数据基本模型如下:
大数据技术在P2P监测系统的应用和实践_第2张图片

P2P监测系统成效—业务分析

通过收集P2P机构的大量明细级的数据,能够全面的分析机构的业务发生情况,能够精准的分析。通过观察机构上传数据具体的业务分析,可以从平均数,最大值,最小值,中位数等基本的数论中得到一个相对客观的评价。比如,合拍在线的平均项目的金额达到了3000多万元,有比较大的嫌疑是虚假数据或者是异常数据。洋钱罐的出借人数达到了6000多万人,占比超过整个行业的2/3,也有比较大的异常数据的可能。通过观察具体机构的上报的业务情况,能够发现一些机构的异常行为。从而能够提前预知机构的发展状况。
P2P监测系统成效—异常数据判定
通过观察机构上报的明细级数据的关键指标能够比较清楚的发现机构的异常情况。以团贷网在2018年上报的数据为例,分析上报数据,从借款余额,借款金额,借款人数和平均借款利率分析,发现业务波动十分明显,同时在2018年8月和2018年9月几乎无业务发生,每个月的出借人数的最大值和最小值的占比达到了200倍以上,借款金额和对位的比值比较大,2018年1月借款金额于借款余额比为25%,而2018年2月到2018年5月的比值范围为50%到70%之间,出现了比较大的波动,说明该机构在1月的以后还钱的项目出现了明显的减少。
通过分析问题机构的数据,不断地总结业务风险模型和异常数据模型,完善整个行业的检测水平。当风险模型和问题数据模型总结的足够多的时候就能够更好的检测行业的发展。

P2P监控测系统成效—机构风险监测

借款个人分析:从个人的经营方向分析划分为P2P个人借款专题。个人借款的领域中,80%以上的借款金额为5000元以下的借款,14%是5000-5万元的借款,3%是5万-20万元,20万以上占比在0.3%左右。可以看出大部分机构对外的的个人借款都是小额借款,大额借款的项目占比非常的少。从借款周期来看,45%的借款周期都在1年到2年之间,34%的借款在1年以内,其他的占比都比较小。可以看出大部分的机构的项目都是短期借贷关系。从出借利率和机构利率来看,在出借人端32%的利率在8%一下,39%的利率在8%-12%之间,21%的利率在12%-18%之间,剩余3%超过18%。从利率分布来看大部分的出借人的出借利率水平在一个较高的水平,大部分出借人的收益都比较高。在机构端2%的利率在8%一下,19%的利率在8%-12%之间,32%的利率在12%-18%之间,22%的利率在18%-24%之间,18%的利率在24%-36%之间,5%的利率在36%之上。从利率分布来看大部分的机构的出借利率水平在一个高水平。从出借的用途来看,53%是个人消费业务,22%是个人经营业务,15%是资金周转,其他等占比在8%左右。
自然人逾期分析:目前协会收录的数据显示,2018年机构上报的数据中有1460万笔数据出现了逾期的情况,涉及到的借款余额达到356亿元,平均每笔借款金额是4720元。从逾期的的自然人借款情况可以看出绝大部分的逾期是借款用途为个人消费和小额借款,在机构借款的利率为8%-12%,18%-24%,24%-36%的出现逾期的风险比较大,相对来说12%-18%出借利率的项目出现风险的概率小一些。相对借款期限来说,6个月以下的逾期的情况相对于其他的借款期限来说出现逾期的风险小一些。相对来说个人经营业务和资金周转出现风险的概率会小一些。通过分析各个项目不同的属性,能够对机构发布的标的设计的安全性有这一个比较基础的指导。
借款企业分析:截止目前协会收录的2018年数据,2018年全年企业借款金额为836亿元人民币,借款余额为231亿。总的借款笔数为15万笔以上。有效的解决了企业在资金周转中的问题,促进了企业更好的发展。从企业的角度来说,目前企业在借款和个人借款有着明显的差别。从借款金额上看,企业借款在平均每笔借款金额达到55万元左右。同时借款的中位数在20万到100万之间。企业对于资金量有着比较大的需求。企业在借款周期中1个月-6个月的占比达到了48%。可以看出企业的经营有着比较明显的短期性。 借款中企业周转和企业经营达到了70%左右。可以发现企业在经营的过程中会很大的情况下遇到经营资金出现问题的情况,可以看出企业对于金融的需求量十分的巨大。同时也可以看出企业借款的利率普遍比较高。

P2P监测系统下一步规划

随着业务快速增长,为提高独立计算能力和存储能力支撑业务快速发展和数据快速增长的需要,对未来平台进行系统规划:在基础硬件层面上,在合适时机进行集群扩容提升平台的存储能力和计算能力;在系统架构层面上,优化现有集群架构,实现 MPP集群同Hadoop计算集群独立拆分,减少资源争用提升集群性能,同时引入新组件新技术;在业务应用层上,对风险模型不断优化升级,适应新业务变化,提升业务支撑服务水平。

你可能感兴趣的:(P2P,大数据,互联网金融,大数据,hadoop,机器学习,编程语言)