正样本、负样本、ROC、AUC

正样本、负样本

正样本和负样本通常与二分类问题相关联

正样本: 与真值对应的目标类别来说该样本为正样本。 (正样本是在二分类问题中我们要寻找的目标类别

负样本: 与真值不对应的其他所有目标类别来说该样本为负样本。(负样本是不属于目标类别的类别

例如:图片二分类任务(比如判断1张图片是否为猫)。

如果样本对应的标签为1,则该样本为正样本(positive sample)

如果样本对应的标签为0,则该样本为负样本(negative sample)

ROC、AUC

TODO 待做

正样本、负样本、AUC(曲线下面积,Area Under the Curve)和 ROC接收者操作特征(Receiver Operating Characteristic)曲线是在二分类问题中常用于评估和描述分类模型性能的关键概念,它们之间的关系如下:

  1. 正样本和负样本:正样本是在二分类问题中我们要寻找的目标类别,负样本是不属于目标类别的类别。这两个类别组成了二分类问题的基础。正样本通常被标记为 "1",负样本通常被标记为 "0"。

  2. ROC 曲线:ROC 曲线是一种图形化工具,用于评估二分类模型的性能。它绘制了不同阈值下的真正例率(True Positive Rate,TPR,也称为召回率或灵敏度)与假正例率(False Positive Rate,FPR)之间的关系。ROC 曲线是一条从左下角到右上角的曲线,它的横轴是 FPR,纵轴是 TPR。ROC 曲线上的点代表了在不同阈值下模型的性能表现。

  3. AUC(曲线下面积):AUC 是 ROC 曲线下面积的度量,它表示 ROC 曲线下的面积大小。AUC 的取值范围通常在 0.0 到 1.0 之间。AUC 越接近 1.0,表示模型性能越好,因为它意味着在各种阈值下,模型的 TPR 相对于 FPR 都更高。AUC 值越低则表示模型性能越差,因为模型不能有效地区分正样本和负样本。

  4. 关系:ROC 曲线以正样本和负样本的真正例率(TPR)和假正例率(FPR)为基础,通过不同的阈值来计算这些值,进而绘制出曲线。AUC 是 ROC 曲线下方的面积,用于度量模型在不同阈值下的性能。一般来说,AUC 越大,模型性能越好,表示模型在分类问题中的能力越强。

综上所述,正样本和负样本构成了分类问题的基础,ROC 曲线和 AUC 是用于评估二分类模型性能的工具。ROC 曲线通过不同的阈值来评估模型的性能,而 AUC 是对整个 ROC 曲线性能的一个综合度量。它们一起帮助我们了解模型的分类能力和对不同类别的区分能力。

你可能感兴趣的:(机器学习基础,人工智能)