天池龙珠金融风控训练营Task01学习笔记

天池龙珠金融风控训练营Task01学习笔记

    • 学习知识点概要
    • 学习内容
    • 学习问题与解答
    • 学习思考与总结

学习知识点概要

1.数据集及其基本内容介绍;
2.预测指标
 2.1.分类算法常见的评估指标
 2.2.金融风控预测类常见的评估指标
3.相关实例代码
4.拓展知识——评分卡

学习内容

这里仅仅展示我自己对所学内容的一遍复习与理解,有所不足请体谅~

1.混淆矩阵(Confuse Matrix)
TP(True Positive) :预测正,实际正——真正
FN(False Negative) :预测负,实际正——假负
FP(False Positive) :预测正,实际负——假正
TN(True Negative) :预测负,实际负——真负

2.准确率(Accuracy)
Accuracy = (预测与实际相同,即TP+TN)/(样本总数)

想法:这里不太理解样本不均匀情况为啥不适用…)

3.精确率(Precision),也叫查准率,即预测的正样本准确率怎样?
Precision = (真正TP)/(正样本TP+FP)

4.召回率(Recall),也叫查全率,即预测的正样本占实际所有的正样本的比例。
Recall = (真正TP)/(所有的实际正样本,即TP+FN)

Relate to 3, 4
精确率高——TP↑,FP↓
召回率高——TP↑,FN↓
(有一点点不理解两者为啥是负相关,理解但没完全理解(doge))

5.F1 - Score
F1 - Score = 2/(1/Precision+1/Recall)
这样就把两者结合在一起了。

6.P-R曲线(Precision-Recall Curve)
由上述分析可以知道两者呈负相关关系

天池龙珠金融风控训练营Task01学习笔记_第1张图片

7.ROC曲线(Receiver Operating Characteristic)
将假正例率(FPR,False Positive Ratio)define为X轴,将真正例率(TPR,True Positive Ratio)define为Y轴。
(FPR=FP/TOTAL,TPR=TP/TOTAL)

天池龙珠金融风控训练营Task01学习笔记_第2张图片

8.AUC(Area Under Curve) ROC曲线下与坐标轴围成的面积,一般取值为[0.5,1],越接近1,真实性越高,等于0.5时,真实性最低,无实用价值。
想法:0.5就是y=x曲线,此时FP=TP且以1:1增长,但是其中1个为1时不是另1个为0吗?有点没搞懂- -。

9.KS(Kolmogorov-Smirnov)值
·KS(Kolmogorov-Smirnov)是两位苏联数学家名字,在实际操作时往往使用ROC曲线配合求出KS值。
·KS常用于评估模型区分度,区分度越大,模型的风险排序能力(ranking ability)越强。K-S曲线与ROC曲线类似
·ROC曲线将真正例率和假正例率作为横纵轴,K-S曲线则将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
·KS不同代表的不同情况,一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。(KS值不是太懂噢- -)

评分卡
评分卡的代码不是很看得懂,希望有注释哈0w0,我的个人理解是把用户的信用各项相关的参数(如goodrate信用好、badrate信用差等)代入得到对用户的综合评价,用一定的区间上的某个值来衡量(如0-100分)。

学习问题与解答

1.精确率和召回率不相关性其实应该怎么体现呢?
2.AUC面积为0.5应该是指FPR和TPR的比例为1:1吧,但当其中1个时1时不是所有的样本都是该类型吗(如TP/TOTAL=1难道不是所有的样本都是真正吗)
3.KS值还是比较模糊T.T,希望以后能搞得懂啦~

学习思考与总结

Task01都是概念性的东西,大致先了解一下,目前没遇到特别大的阻碍。其中最重要的是对每一个参数都最好有个大概性认知,还有对代码也要加强熟悉,并最好举一反三。机器学习部分都有点难,除了本课程的内容也要熟悉机器学习的其他部分,这样才能让自己能灵活运用。最后,也是希望自己这15天能坚持下来,不断提升自己的能力,add oil!

你可能感兴趣的:(笔记,机器学习)