SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?

基础准备

上一篇文章介绍了决策树分析的基本理论,以及它与聚类分析、判别分析、逻辑回归分析等分类和判别方法的区别与联系,大家可以点击下方文章链接回顾:

  • 数据分析技术:决策树分析;机器学习入门模型


决策树模型

通过上篇文章可以知道,决策树分析通过对历史数据的归类分析,找出能够使目标变量各个水平具有最大差异的分配路径,这些路径连接在一起就成为树状图,也称为决策树模型。如下图所示:

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第1张图片

节点0表示原始数据按照目标分类变量分类的比例情况。根据自变量与目标变量的相关性(卡方检验结果),安排自变量进入模型,将原始数据按照自变量水平进行分支,如上图所示,分成1,2,3这三个节点,由于节点1数据在目标变量水平上已经达到显著,停止生长。节点2和3可以继续生长,直到有显著性差异为止。

 

通过以上过程,决策树就生长好了(决策树模型建立)。然后重新将数据代入到这个决策树模型中进行判别归类,检验该模型的判别效果如何,也就是判别准确率有多高。如果效果不错,那就可以用来对今后的数据进行判断,如果效果不好,那么可以考虑增添新的自变量,或使用其它的决策树生长方法(CHAID/E-CHAID/CART/QUEST),期望能够获得效果不错的决策树模型。以上就是决策树模型的建立逻辑。


范例分析

现在有一份银行记录客户贷款交易信息的数据文件,总共包含了2464名客户的信息。这份文件里记录了客户的信用记录、年龄、收入水平、信用卡数量、教育水平和贷款次数等信息。银行希望能够通过这些历史数据,分析能够及时还贷和拖欠贷款的客户特征,然后建立预测模型用于预测后续贷款申请者拖欠贷款的可能性,从而决定是否给其贷款。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第2张图片

(例题数据文件已经上传到QQ群中,需要的朋友可以前往下载)


分析思路

首先观察数据,发现数据有目标分类变量,也就是信用记录变量,该变量记录了客户之前在银行的信用好坏情况。其次,用于描述用户特征的变量收入水平、信用卡数量、教育水平、贷款次数为分类型变量,只有年龄是连续型变量,因此可以考虑使用决策树分析建立预测模型。最后,关于决策树四种算法CHAID/E-CHAID/CART/QUEST的选择问题,大家可以将通过测试,选择预测结果最好的算法即可。


分析步骤

1、选择菜单【分析】-【分类】-【决策树】。在跳出的对话框中,将目标变量,也就是需要预测的变量信用记录选为因变量;将用于预测的变量年龄、收入水平、信用卡数量、教育水平和贷款次数选为自变量。我们首先使用决策树的CHAID算法建立决策树模型。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第3张图片

2、点击因变量下方的【类别】按钮。在信用记录变量中,有两个水平:信用记录好与坏,银行更关心,希望能预测出来的应该是信用记录差的人,因此将差这个水平选为分析中使用的类别。同时有一部分客户的信息中没有信用记录信息,这部分客户数据被排除。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第4张图片

3、点击右上角的【输出】按钮。在对话框中,可以选择决策树的生长方向和结点内容。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第5张图片

4、点击右上角的【验证】按钮,这里可以设置训练集和验证集。草堂君在这里将75%的数据用作模型训练,25%的数据用来检验模型效果。这个比例可以自由调整。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第6张图片

5、点击【条件】按钮。为了避免结点个案数少导致结果不准确,可以在这里对结点的个案数进行规定,父节点个案数不能少于400,子节点个案数不能少于200。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第7张图片

6、点击【保存】按钮,可以将终端节点数,预测值,预测概率和样本分配情况保存为新的变量,显示在数据视图中。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第8张图片

7、点击【确定】,输出结果。


结果解释

1、模型摘要表格。从结果可知,最终的模型只纳入收入水平、信用卡数量和年龄三个自变量,而贷款次数和教育水平由于与因变量信用记录相关性低,被排除出模型。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第9张图片


2、决策树。结果输出两个决策树,分别是训练集决策树和检验集决策树。由于决策树所占空间比较大,这里只展现缩略图,具体图形,大家可以从qq群中下载数据自己制作。最终的端点包括节点1、8、9、6、5、7。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第10张图片

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第11张图片


3、节点增益表。以训练集的节点1为例说明;节点1中,总个案数为417人,占它上一级,也就是父节点个案数1830的22.8%(417/1830);节点增益中的343表示,417人中有343人的信用记录为坏,占它上一级,父节点信用记录坏的人数778的44.1%(343/778)。对比这两个比例可以发现,经过收入水平这个自变量的分类后,在节点1处,信用记录坏的人群比例由22.8%增长到44.1%,比例有显著性提高。响应的82.3%表示在节点1处,信用记录坏的人群比例为82.3%(343/417)。指数代表节点1出的信用记录坏的人数比例82.3%除以它的上一节父节点的信用记录坏的人数比例42.5%,82.3%/42.5%=1.935。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第12张图片


4、模型效果输出两个表格。风险表格显示训练集的风险估算值为0.195,表示有19.5%的个案会被错误归类;而检验集中有20.8%的个案被错误分类。下方的分类表格输出具体的模型分类结果,例如,在训练集中,763个信用记录差的人中,有534个被真确判断为查,有229个被错误判断为好,正确率为70%。可见这个决策树模型的效果有待改进。

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第13张图片


所有例题的数据文件都会上传到QQ群中,需要对照练习的朋友可以前往下载,QQ群号见下方温馨提示。生活统计学不仅有各种数据分析方法,更有容易被大家忽视的生活常识。


温馨提示:

  • 数据分析课程私人定制,一对一辅导,添加微信(possitive2)咨询!

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。支持各种资料的直接下载和百度云盘下载。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?_第14张图片

你可能感兴趣的:(SPSS分析技术:决策树分析;银行如何判断申请贷款者的还款能力?)