广工大数协 阿里云天池 金融风控训练营-Task1 赛题理解与评分规则学习笔记

一、学习知识点概括

1、分类算法常见的评估指标 2、金融风控预测类常见的评估指标

3、对数据读取和指标评价示例

二、学习内容

2.1分类算法常见的评估指标

1、混淆矩阵

真正类TP:被预测为正样本,实际上也是真样本

假正类FP:被预测为正样本,实际上是负样本

真负类TN:被判定为负样本,实际上是负样本

假反类FN:被判定为负样本,实际上是正样本

2、准确率A:就是判断准确的样本比上所有的样本

3、查准率P:TP比上所有判断为正样本的样本

4、查全率R:TP比上所有实际上为真样本的样本

5、P-R曲线:p与R变化的曲线

6、ROC:X轴假正例率;Y轴真正例率

7、AUC:ROC曲线下与坐标轴围成的面积,0.5

2.2金融风控预测类常见的评估指标

1、KS-评估模型区分度(在风险预测模型中,能把风险高、低不同的人群正确区分开来),区分度越大,模型的风险排序(通过风险比较,对风险大小进行排序)能力越强;ks越大,需要检查是否过于拟合

2、ROC

3、AUC

2.3对数据读取和指标评价示例

读取数据:利用pandas读取数据

其中

#通过read_csv函数读取csv文件
train = pd.read_csv('train.csv')
testA = pd.read_csv('testA.csv')

三、学习问题与解答

1、

混淆矩阵:
 [[1 1]
 [1 1]]

为什么混淆矩阵长这样?

可以参考这个做理解

TP FN

FP TN

2、AUC是什么,要怎么算?

AUC的概率意义是随机取一对正负样本,正样本得分大于负样本的概率

四、学习思考与总结

零基础来学习可能还是有点难,一点一点看,百度一下才明白其中的原理,所以可能真的要学习一下前面的知识才能理解一些。开始比赛前要先了解比赛。

你可能感兴趣的:(广工大数协 阿里云天池 金融风控训练营-Task1 赛题理解与评分规则学习笔记)