金融风控训练营-Task01-赛题理解

本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容——Task1-赛题理解,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr

一、学习知识点概要

Task1主要向我们介绍了金融风控训练营的学习计划和贷款违约预测挑战赛的赛题。从赛题、数据、预测指标等方面简单分析了赛题,让我有了初步的了解。另外附上了一些简单的代码实现,还分享了一些参赛经验。

二、学习内容

1.关于赛事

性质:零基础入门系列赛事——零基础入门金融风控之贷款违约预测挑战赛;

比赛要求:根据给定的数据集,建立模型,预测金融风险;

数据集:80万训练集(train.csv),20万测试集A,20万测试集B;包含47个变量,其中15个为匿名变量;

评价指标:ACU;

赛题流程:数据EDA——特征工程——建模调参——模型融合。

EDA:数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系。

AUC(Area Under Curve)

  • AUC是指ROC曲线下部与横纵坐标围成的区域(图中阴影部分)的面积。
  • FPR:假正例率,表示在实际为负例的所有样本中,被错误判断为正例的比率;
  • TPR:真正例率,表示在实际为正例的所有样本中,被正确判断为正例的比率。
  • 由概念初步可见,TPR越高越真实。
  • 结合ROC曲线及AUC,发现AUC越接近1.0,即阴影部分的面积越接近1.0,检测方法真实性越高;AUC等于0.5时,真实性最低,没有实用价值。

金融风控训练营-Task01-赛题理解_第1张图片

KS(Kolmogorov-Smirnov)

  • KS=max(TPR-FPR)
  • KS越大,模型的区分能力越强,一般在41-75%之间是合理的。过高(大于75%)时则要考虑过拟合的问题。

2.简单的代码操作

2-1.导入数据

(1)方法1:通过wget命令从链接直接下载数据到dsw;

#将数据下载到本地
!wget 链接
#利用pandas读取数据
train = pd.read_csv(下载后的本地csv文件)

(2)方法2:直接利用pandas读取链接数据;

#直接用pandas读取链接的数据
train = pd.read_csv(文件的完整链接)

方法1将数据下载到本地,虽然读取数据的速度比较快,但是占用内存,因此推荐方法2读取数据的方法。

2-2.显示数据

(1)数据的形状:train.shape 显示数据的行列;

(2)数据:train.head() 默认显示数据的前十条,显示的行数可以在括号中设置;

2-3.分类指标评价计算采用的库和方法

from sklearn.metrics import confusion_matrix

from sklearn.metrics import accuracy_score

from sklearn import metrics

from sklearn.metrics import precision_recall_curve

from sklearn.metrics import roc_curve

from sklearn.metrics import roc_auc_score

from sklearn.metrics import roc_curve

2-4.绘图

import matplotlib.pyplot as plt

三、学习问题与解答

问题:为什么除了准确率,还需要查准率和查全率?

回:我们将这些指标应用到某个场景——信息检索。在信息检索中,我们经常会关心”检索出的信息中有多少比例是用户感兴趣的”,这就是查准率(Precision,正确预测为正样本占预测为正样本的比例),还会关心”用户感兴趣的信息中有多少被检索出来了”,这就是查全率(Recall,正确预测为正样本占正样本的比例)。因此准确率不再满足人们的需求。

四、学习思考与总结

通过Task1的学习,我对赛事和赛题流程有了初步的简单了解,也了解了一些分类的评估指标,在调参过程中要考虑模型的泛化能力,不能过拟合。学习到了实现评估指标需要调用到的库和方法。

 

 

 

 

你可能感兴趣的:(数据分析)