本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为
https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.38.68e94d57hrw5N5&postId=170948
一、学习知识点概要
赛题目标 :通过贷款申请人的数据进行分析,建立模型来预测贷款人是否有违约的风险,以此作为是否给贷款人贷款的依据。
数据概括:本次大赛已经提供训练集、测试集A、测试集B。部分数据目录如下(不一一罗列)
预测指标 :混淆矩阵、ROC曲线、AUC、K-S曲线
二、学习内容
2.1 混淆矩阵,是用来机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。
它的用法为 sklearn.metrics.confusion_matrix(y_true,y_pred,labels=None,sample_weight=None)
y_true:样本真实分类结果
y_pred:样本预测分类结果
labels:给出的类别
sample_weight:样本权重
>>>import numpy as np
>>>from sklearn.metrics import confusion_matrix
>>>y_true=[2,1,0,1,2,0]
>>>y_pred=[2,0,0,1,2,1]
>>>confusion_matix(y_true,y_pred)
array ([[1 1 0],
[1 1 0],
[0 0 2]])
真实值与预测值对照着来看,(0,0)1个,(0,1)1个,(0,2)0个,(1,0)1个,(1,1)1个,(1,2)0个,(2,0)0个,(2,1)0个
(2,2)2个,由此可知混淆矩阵如上。
2.2 ROC曲线,是横轴为FPR,纵轴为TPR 的曲线。
2.3 AUC,是ROC曲线与坐标轴围成的面积,取值在[0.5,1],AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。小于0.5时,反向预测才可能更好的。
三、学习问题与解答
不理解ROC曲线是怎么绘制的,不同的FPR和TPR是怎么确定的呢?通过上网查找资料发现它是有一系列的阈值来确定出FPR和TPR,从而画出ROC曲线。并且学习到了最佳阈值的确定——约登指数,即约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1
四、学习思考与总结
既然这次大赛是贷款违约风险预测,我认为赛题理解除了Task1里的内容,还应该思考哪些信息可以作为判断违约的依据,比如负债的比率,个人的收入与开支等等。因为笔者是零基础,代码方面有些需要查查语法,不仅仅看懂Task1里写好的代码,还应看看语法的文档,掌握多种用法。
引用:金融风控训练营学习内容https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.38.68e94d57hrw5N5&postId=170948
ROC曲线原理实例分析 https://www.jianshu.com/p/5aae5ad0d1e0
sklearn.metrics.confusion_matrix的用法 https://blog.csdn.net/du_shuang/article/details/84110983