数据分析案例

数据分析报告撰写

                             ———手机APP数据

背景介绍

2015年1月5日,人民银行批准八家机构进行数据的收集。此后,中国个人征信行业进入高速发展期,征信人口覆盖率达50%,每人每年查询个人征信报告的次数为5,查询服务单价为25元,从而,征信市场未来规模约855亿元。什么是征信?简单而言,市民小强买新出的BMW,问题钱不够,便找银行贷款。银行找来帮手——征信机构,征信机构根据小强在日常消费、事业单位、相关政府部门中的个人基本信息、支付、借还款等信息,对小强进行征信评分或评级,这就是征信的基本内容。如下为征信流程:

 

征信发挥着重要基础作用。征信降低了交易中存在参与双方信息不对成而带来的交易风险,从而起到风险判断和揭示的作用。同时,征信促成信用交易的达成,促进金融信用产品和商业信誉产品的创新,在互联网飞速发展下,有效矿大信用交易的范围和方式,带动信用经济规模的扩张。征信将信息价值最大化,通过专业化的信用信息的服务,更快更准确做出决策,提高经济主体的运行效率。而征信业是社会信用体系建设的重要组成部分,发展征信业有助于遏制不良信用行为的发生,保障守信者利益,促进社会良好和谐的经济秩序,完善社会信用体系建设。

信用数据源的割裂是征信领域的主要问题。P2P行业的信用数据获取渠道极其有限,个人信用数据部分依靠借款用户自行提交,部分依靠平台上门征集,造成运营成本压力和管理压力。事业单位、相关政府部门的数据之间的交叉融合非常少,较为分散。大数据的兴起,利用我国互联网、移动互联网用户规模大的优势,有效填补了信用数据问题。其中,APP数据尤为重要。智能手机的普及,使得APP数据来源具备普遍性,覆盖人群广。手机上网比例,大众花在浏览APP的时间日平均3小时。而APP的成为大众消费、贷款、办公等个人或办公信息交流的平台。获得APP数据的合法需求和可允许要求低,APP数据的获取渠道多,自由获取,数据的规模可控,时效性非常强,真实可信,可用性高,价值高。手机APP数据纳入征信体系,能减轻数据获取成本,促进大数据风险控制的发展和信用信息共享,打破“数据孤岛”的僵局,为其提供一个契机,更有望促进我国征信体系发展,为建设我国信用社会提供有力支持。

数据说明

APP得分数据集由包含一个用户的手机设备号,基础信息和一系列APP的安装情况的原始数据集计算得到。数据集共1000条观测,每条观测表示一个用户的APP得分,共11个变量,变量具体说明如表1-1

表1-1

变量类型

变量名

详细说明

取值范围

备注

因变量

是否按期还款

定性数据

共两个水平

违约:0

不违约:1

违约率20%

自变量

用户信息

性别

定性数据

共两个水平

男:0

女:1

男性比例51.3%

年龄

定量数据

18~50

取整数

省份指数

定量数据

0.003732~2.993349

均值:1.1775

APP信息衍生变量

管理类APP个数

定量数据

0~24

均值:3.163

好APP个数

定量数据

1~42

均值:12.77

坏APP个数

定量数据

0~55

均值:9.859

总APP个数

定量数据

12~124

均值:41.74

小众APP个数

定量数据

0~19

均值:4.129

用户极优指数

定量数据

1.003~2.993

均值:1.839

 

 

借贷类APP个数

定量数据

0~16

均值:2.752

数据探索性分析

用户年龄分布主要集中在18~29岁,符合现实,该年龄段为新一代紧贴时代脚步,多数在外为梦想拼搏,为手机使用高频人群。而违约分组箱线图中可以得到,不违约的用户极优指数均值远高于违约人群,且不违约人群总体极优指数偏高,对于是否违约有明确的指示作用。

对于APP衍生变量的分析,有直方图可得:各APP数据呈右边分布,各自的取值相对集中,其中好的APP个数和总的个数近似正态分布。好的APP个数12766占总比30.58%,坏的APP个数9859占总比23.62%,两者相差并无明显差距。管理类与借贷类同样没有明显的差距。但,坏的APP个数需要给予关注,情况并不乐观。

逻辑斯蒂回归系数

如表1-2

 

 

 

 

表1-2

变量

系数估计

P值

备注

截距项

1.6739

<0.01

 

是否为女性-是

-0.5629

<0.01

基准组:男性

借贷类

-0.2061

<0.01

-

管理类

0.1214

<0.01

 

好的

0.1238

<0.01

 

坏的

-0.03654

<0.01

 

总的

-0.02285

<0.01

 

小众的

0.09674

<0.01

 

省份指数

0.3692

<0.01

 

极优指数

0.7661

<0.01

 

X1

0.6277

0.027

基准组:(37,50]

X1:[18,26]    X2:(26,29]

X3:  (29,32]    X4:(32,37]

X2

-0.0098

0.97

X3

-0.2197

0.47

X4

-0.2976

0.33

显著性水平为0.01

可得除了x1-x4系数不显著,其他系数估计的P值小于0.01,显著有效。其中,小众的、好的、管理类、省份指数、极优指数的系数估计为正,说明在其他因素控制不变的情况下,上述自变量的增加会导致因变量为1,即非违约率增加。而且上述变量每增加一单位,log-0dds增加的程度变大。相反,女性、借贷类、坏的、总的的系数估计为负,给非违约率带来的影响与系数估计为正的相反。而x1-x4为不同的年龄段,以(37,50]为基准组,可得,相对较高的年龄段,[18,26]这一年龄段的人数的系数估计为正的0.6277,对非违约率由促进作用。而与年龄与高年龄段接近的情况,则对非违约率有反作用。这一现象可能与教育水平相关,相对[18,26]这一年龄段人群,学历较高,熟悉社会,抵制诱惑能力较强,批判能力较强以及正确观念。

 

 

 

 

 

 

ROC曲线

ROC曲线下方的面积能反映该模型的预测能力,AUC值越大模型预测能力越强。此处AUC为0.832,说明该模型具有优秀的预测的能力。

预测

利用该模型对测试数据集(从得分数据集中随机抽选20%得到)进行测试,阈值设为0.78,预测结果混淆矩阵如下:

 

真实值

总计

0

1

预测值

0

26

5

31

1

50

119

169

总计

76

124

200

可得错分率为27.50%,TPR为70.41%,FPR为16.13%。所选阈值会直接影响到是前三者的取值,而与AUC值无关。由多次抽取预测取平均值可得结论:该模型稳定,预测能力良好。

 

人群划分图

可由下图得:由该数据进行逻辑斯蒂建模,对人群回测效果较好,从人群分类上说,大部分用户属于良好,即不存在违约可能性较低。该数据集对象年龄段[18,29]占比52%,劳动能力强,学历较高,生活自主能力强,有固定的收入,现代人理财观念增强,使得平均非违约率偏高的重要原因。

 

结论

对于APP得分数据集探索征信问题的案例分析,首先,数据集的选取非常合理,覆盖面广,手机是私人的专属物品,在手机的使用情况,具有唯一性,使其具有很高的分析价值。其次,构建了很稳定有效的APP得分,很大程度开发了数据。而选择逻辑斯蒂回归模型进行分类是合适的。使得自变量的系数估计通过显著性检验,同时得到极具价值的信息,管理以及好的APP给用户带来更加健康,高质量的信息,有利于用户提高生活质量,是社会所需要以及宣传的。而对于年龄段偏高人群,应该反馈回归结论,并进行引导。有助于自身的健康发展,又促进社会和谐风气。

你可能感兴趣的:(R)