机器学习系列(一)—— ROC曲线与AUC

一、ROC

机器学习模型通常输出一个实值或者概率,并将其与一个阈值比较,若大于阈值,判为正例,否则判为反例。因此,阈值的设定会影响学习器的泛化性能。ROC曲线就是从阈值设定的角度研究学习器的泛化性能

ROC的横轴为FPR, 纵轴为TPR

FPR =\frac{FP}{FP + TN}

TPR = \frac{TP}{TP + FN} 

ROC曲线实际由离散点组成,点的个数等于测试样本个数,每个点的坐标为(FPR, TPR). 整个ROC曲线反应了学习器在不同阈值条件下的泛化性能。

小结:

1. ROC曲线越靠近左上角(0,1), 学习器性能越好 , 说明TPR越接近1,FPR越接近0 

2. ROC曲线可以明显的展示各学习器的预测性能,曲线越靠近左上角的学习器预测能力越

3. 但ROC曲线若存在交叉,则无法直接判断学习器性能的优劣 

二、AUC 

AUC代表ROC曲线下的面积,由于ROC曲线存在交叉的情况,无法直接判断对应学习器孰优孰劣

通俗来说,AUC就是从所有正样本中随机选择一个样本,从所有负样本中随机选择一个样本,然后根据你的学习器对两个随机样本进行预测,把正样本预测为正例的概率p1,把负样本预测为正例的概率为p2,p1>p2的概率就等于AUC所以AUC反映的是分类器对样本的排序能力  

小结:

1. AUC是ROC曲线的下方的面积

2. AUC反映了分类器对于样本的排序能力

3. AUC曲线不受样本不平衡的影响

 

你可能感兴趣的:(机器学习,算法)