花书训练营第24天打卡

1.总结过拟合和欠拟合的具体表现(以分类问题为例)

欠拟合:

表现:训练集上面准确率很低
解决:增加输入样本的维度

过拟合:

表现:训练集上面准确率很高,但测试集上面准确率很低
解决:①扩充数据集②正则化(L1,L2,Dropout)

2.评价指标的计算方式 (Precision, Recall, F1 score, Confusion Matrix, ROC, AUC, mAP)

在定义这些指标之前需要先明确以下概念:
TP:本身是正例,被预测为正例的样本
FP:本身是负例,被预测为正例的样本
TN:本身是负例,被预测为负例的样本
FN:本身是正例,被预测为负例的样本
关于这四者的关系可以用下图简单表示:
花书训练营第24天打卡_第1张图片

Precision

P r e c i s i o n = T P T P + F P Precision = \frac{TP}{TP+FP} Precision=TP+FPTP

Recall

R e c a l l = T P T P + F N Recall = \frac{TP}{TP+FN} Recall=TP+FNTP

F1 score

2 F 1   s c o r e = 1 P r e c i s i o n + 1 R e c a l l \frac{2}{F_1 \ score}=\frac{1}{Precision }+\frac{1}{Recall } F1 score2=Precision1+Recall1

Confusion Matrix
有写得很好的文章
https://blog.csdn.net/vesper305/article/details/44927047

ROC

ROC(receiver operating characteristic curve)指受试者工作特征曲线或接收器操作特性曲线,是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
首先根据以上定义可以得到以下概念:
①.真正类率(True Positive Rate , TPR)【灵敏度(sensitivity)】
TPR = TP /(TP + FN) ,即正样本预测结果数/正样本实际数
②.假负类率(False Negative Rate , FNR)
FNR = FN /(TP + FN) ,即被预测为负的正样本结果数/正样本实际数
③.假正类率(False Positive Rate , FPR)
FPR = FP /(FP + TN) ,即被预测为正的负样本结果数/负样本实际数
④.真负类率(True Negative Rate , TNR)【特指度(specificity)】
TNR = TN /(TN + FP) ,即负样本预测结果数/负样本实际数
从而可以得到下图所示的ROC曲线:
花书训练营第24天打卡_第2张图片

AUC

花书训练营第24天打卡_第3张图片

mAP

首先得定义AP(Average Precision)对于每一个类别的AP进行平均便可以得到mAP,对于某一个类别AP的定义方法如下,首先根据Precision和Recall画出PR曲线,然后对PR曲线进行适当地修正,PR曲线下的面积就是就是该类别的AP,然后求出所有类别的AP,进行mean操作便可以得到整个测试集上面的mAP。

3.类别不平衡问题的解决方法

①改写数据加载模块,实现均衡采样
②采用Focal Loss损失函数

你可能感兴趣的:(花花书)