机器学习性能度量

性能度量

即对学习器泛化能力的评估标准。根据不同的任务需求选择不同的性能度量方式

回归任务中性能度量

最常用的性能度量方式是: 均方误差 


更一般的,对于数据集D 和概率密度p ,均方误差可以描述为: 

分类任务中性能度量

1.  错误率与精度

错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,错误率+精度=1。

2.  查准率、查全率、F1

查准率:也称为准确率precision,即预测结果是正类的样本中分类正确的比例。

查全率:也称为召回率recall,即实际是正类样本被分类正确的比例。


混淆矩阵如下:

 

真实情况

预测结果

正例

反例

正例

TP(真正例True Positive)

FN(假反例False Negative)

反例

FP(假正例False Positive)

TN(真反例True Negative)

 

F1:查全率和查准率其实是一对矛盾的度量,想要查全率高,可以把所有样本都选进来,那自然所有的实际正类样本都被挑出来了,查全率自然高,但查准率会低;想要查准率高,可以把最可能是正类的样本选进来,那查准率就高了,但肯定预测出来的正类不全。因此 F1就是基于P和R的调和平均。但是为什么不用算术平均而是用调和平均呢? 
原因是调和平均会在P和R相差较大时偏向较小的值。Fβ中的β>0,度量了P和R的相对重要性。

机器学习性能度量_第1张图片

3.  ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测,然后将之歌预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为反类。因此将学习器的预测结果对样本进行排序,按照顺序逐个将样本作为正例预测,每次算出TPR(真正例率)和FPR(假正例率),分别TPR和FPR作为纵坐标和横坐标,最后构成的曲线叫“ROC曲线”。ROC称为‘受试者工作特征’。


TPR(相当于查全率R,正例被判断为正例的概率)


FPR(反例被判断为正例的概率)

AUC为ROC曲线下的面积,可以用来比较学习器的优劣。

4.  代价敏感错误率与代价曲线

 

之后再补


你可能感兴趣的:(机器学习)