金融风控训练营赛题理解学习笔记

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.38.68e94d57hrw5N5&postId=170948

一、学习知识点概要

赛题目标 :通过贷款申请人的数据进行分析,建立模型来预测贷款人是否有违约的风险,以此作为是否给贷款人贷款的依据。

数据概括:本次大赛已经提供训练集、测试集A、测试集B。部分数据目录如下(不一一罗列)

  • id 为贷款清单分配的唯一信用证标识
  • loanAmnt 贷款金额
  • term 贷款期限(year)
  • interestRate 贷款利率
  • installment 分期付款金额 

预测指标 :混淆矩阵、ROC曲线、AUC、K-S曲线

二、学习内容

2.1 混淆矩阵,是用来机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。

  • (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
  • (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
  • (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
  • (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

它的用法为 sklearn.metrics.confusion_matrix(y_true,y_pred,labels=None,sample_weight=None)

 y_true:样本真实分类结果

y_pred:样本预测分类结果

labels:给出的类别

sample_weight:样本权重

>>>import numpy as np
>>>from sklearn.metrics import confusion_matrix
>>>y_true=[2,1,0,1,2,0]
>>>y_pred=[2,0,0,1,2,1]
>>>confusion_matix(y_true,y_pred) 

array ([[1 1 0],

           [1 1 0],

           [0 0 2]])

真实值与预测值对照着来看,(0,0)1个,(0,1)1个,(0,2)0个,(1,0)1个,(1,1)1个,(1,2)0个,(2,0)0个,(2,1)0个

(2,2)2个,由此可知混淆矩阵如上。

2.2 ROC曲线,是横轴为FPR,纵轴为TPR 的曲线。  

FPR=\frac{FP}{FP+TN}        TPR=\frac{TP}{TP+FN}

2.3 AUC,是ROC曲线与坐标轴围成的面积,取值在[0.5,1],AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。小于0.5时,反向预测才可能更好的。

三、学习问题与解答

不理解ROC曲线是怎么绘制的,不同的FPR和TPR是怎么确定的呢?通过上网查找资料发现它是有一系列的阈值来确定出FPR和TPR,从而画出ROC曲线。并且学习到了最佳阈值的确定——约登指数,即约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1

 四、学习思考与总结

既然这次大赛是贷款违约风险预测,我认为赛题理解除了Task1里的内容,还应该思考哪些信息可以作为判断违约的依据,比如负债的比率,个人的收入与开支等等。因为笔者是零基础,代码方面有些需要查查语法,不仅仅看懂Task1里写好的代码,还应看看语法的文档,掌握多种用法。

 

引用:金融风控训练营学习内容https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.38.68e94d57hrw5N5&postId=170948

          ROC曲线原理实例分析 https://www.jianshu.com/p/5aae5ad0d1e0

          sklearn.metrics.confusion_matrix的用法 https://blog.csdn.net/du_shuang/article/details/84110983

 

 

 

你可能感兴趣的:(数据分析)