机器学习中的评估指标

机器学习中需要使用模型，优化，评价，其中评价指标也是用来优化的一环，这里总结一下常用的评估指标，主要分为分类和回归，其中分类指的是二分类，多分类可在此基础上拓展。

分类问题

对于一个二分类问题来说，实例会被分为正例和负例，则根据预测的正确与否会分为四种情况。

TP（True Positive）：实际是正类，预测为正类。
FN（False Negative)：实际是正类，预测为负类（漏）。
FP（False Positive）：实际为负类，预测为正类（误）。
TN（True Negative）：实际为负类，预测为负类。

二元混淆矩阵便是用表格的形式表示以上四种情况，能方便的比较预测的正误数。

混淆矩阵

准确率（accuracy）指正确预测的样本数/总数，公式表示为Accuracy = (TP+TN)/(TP+FN+FP+TN)。

精确率（Precision）也叫查准率，只是针对预测正确的正样本而不是所有预测正确的样本。即正确预测的正例数 /预测正例总数，公式表示为Precision = TP/(TP+FP)。

召回率（Recall）也叫查全率，表现在实际正样本中，分类器能预测出多少，即正确预测的正例数 /实际正例总数，公式表示为Recall = TP/(TP+FN)。

F1Score是precision和recall的调和平均值，更接近于两者中较小的那个。公式表示为2/F1 = 1/Precision + 1/Recall。不过更一般的用法是加权调和平均，即对于precision和recall分别取不同的权值。

真正率(True Positive Rate,TPR)：TPR=TP/(TP+FN)，即被预测为正的正样本数 /正样本实际数。
假正率(False Positive Rate,FPR)：FPR=FP/(FP+TN)，即被预测为正的负样本数 /负样本实际数。
假负率(False Negative Rate,FNR) ：FNR=FN/(TP+FN)，即被预测为负的正样本数 /正样本实际数。
真负率(True Negative Rate,TNR)：TNR=TN/(TN+FP)，即被预测为负的负样本数 /负样本实际数。

PR曲线的横坐标是精确率P，纵坐标是召回率R。显然精确率和召回率都是越大越好，即在上方的曲线比下方的曲线好。当精确率和召回率接近时F1Score最大，因此也可以直接找F1score的最大点（只需要画直线y=x)。

image.png

ROC（Receiver Operating Characteristic）曲线在对于正负例的判断中，我们会设置一个阈值，当大于这个阈值则为正例，小于这个阈值则为负例，根据不同的阈值，采用横坐标为False Positive Rate(FPR假正率)，纵坐标为True Positive Rate(TPR真正率)，便可做出ROC曲线。对角线对应的是随机猜测的表现，一般曲线越接近左上角，则分类器的性能越好。

image.png

AUC（Area Under Curve）为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。当AUC=0.5，则表示为随机猜测，没有预测价值，当AUC>0.5优于随机猜测，当AUC<0.5比随机猜测还差，但只要反预测便可优于随即猜测。AUC曲线的物理意义为，任取一对（正、负）样本，正样本的置信度大于负样本的置信度的概率。

代价敏感指的是不同的错误具有不同的权重，即将正例预测为负例的后果与将负例预测为正例的后果不一致。如在体检时，将生病的情况预测为健康的危害大于将健康的情况预测为生病，体检的时候如果把正确率直接设置为100%，则与实际情况很接近，但这并不是我们想要的，我们需要的是找出其中的病人，因此需要将这两种情况赋予不同的权重。