Datawhale第17期组队学习(零基础入门金融风控)Task01:赛题理解

Tip:参加了Datawhale的第17期学习,内容是与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测 挑战赛。

课题是以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

Task01的任务主要是以对赛题的理解和对赛题数据有一个大体的掌握了解,主要分为下面四个大类来进行。

Datawhale第17期组队学习(零基础入门金融风控)Task01:赛题理解_第1张图片

  • 先通过pandas对训练集进行一个观察,看看训练集中各个维度的数据是什么类型的,个数都多少(看看哪些有缺失)
import pandas as pd

df = pd.read_csv("H:/Datawhale/数据挖掘-金融风控/train.csv")
print(df.info())
  • 得出下面的结果,我们可以看到object类的值有5个,int类有9个,float有33个。相应的关系大致可以为object-类别数据,int-离散数据,float-连续数据。

Datawhale第17期组队学习(零基础入门金融风控)Task01:赛题理解_第2张图片

  • 接下来学习一下预测指标的ROC空间是如何来评判的。、

举例来说,我们对于一个二分问题,可以将问题实例分为正类和负类(positive&negative),对此进行预测的话,可能会出现四种情况。

  1. 实例为正预测为正,同为正,预测对了,这个称为真正类TP(True positive);
  2. 同1完全相反的情况,实例为负预测为负,同为负,也预测对了,这个称为真负类TN(True negative);
  3. 实例负预测正,结果相异,预测错了,本来是负的你说他是正的,所以这个称为假正类FP(False positive);
  4. 同3完全相反的情况,实例正预测负,结果相异,预测错了,本来是正的你说他是负的,所以这个称之为假负类FN(false negative)

通过图标可以表示为

  预测
1(正) 0(负)
实际 1(正) 真正类TP 假负类FN
0(负) 假正类FP 真负类TN

       上面的说明可以发现,ROC曲线的横坐标和纵坐标其实是没有相关性的,所以不能把ROC曲线当做一个函数曲线来分析,应该把ROC曲线看成无数个点,每个点都代表一个分类器,其横纵坐标表征了这个分类器的性能。为了更好的理解ROC曲线,我们先引入ROC空间,如下图所示。

ROC空间的纵坐标Y为TPR(TPR=\frac{TP}{TP+FN}),表明在正类(positive)数据中,预测结果为正的比例(预测对的)。

横坐标为FPR(FPR=\frac{FP}{FP+TN}=1-\frac{TN}{TN+FP}),表明在负类(negative)数据中,预测结果为正的比例(预测错的)

Datawhale第17期组队学习(零基础入门金融风控)Task01:赛题理解_第3张图片

其中,A,B,C,C'为四个分类器,其工作结果如下:

Datawhale第17期组队学习(零基础入门金融风控)Task01:赛题理解_第4张图片

 明显可以看出,C‘的性能最好,而B准确率ACC只有0.5,几乎是随机分类。

 

  • ROC曲线描述的其实是分类器性能随着分类器阈值的变化而变化的过程。对于ROC曲线,一个重要的特征是它的面积(曲线向下围成的面积大小),面积为0.5为随机分类(图中红色的虚线),识别能力为0,面积越接近于1识别能力越强,面积等于1为完全识别。

以上ROC相关内容引用自知乎-ROC曲线简介 https://zhuanlan.zhihu.com/p/26293316。

你可能感兴趣的:(Datawhale学习,数据挖掘)