Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow 学习笔记1-Precision and Recall

用CSDN记录一下读书时候学到的知识,方便以后翻阅。

文章目录

  • Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow 学习笔记1-Precision and Recall
  • 前言
  • 一、TN, TP, FN, FP
  • 二、Precision and Recall
    • 1.Precision
    • 2.Recall
    • 3.Accuracy
  • 三、Measures
    • 1.F1-score
    • 2.Precision/Recall Tradeoff
    • 3.The ROC Curve
  • 总结


前言

这本书可以说是机器学习领域中的一部经典著作,读了几章以后根本停不下来,对之前的一些很模糊的概念和知识点也有了更深的了解,用博客记录一下学习的过程和内容方便以后翻阅。


一、TN, TP, FN, FP

第一个字母代表预测情况,T为预测正确,F为预测错误。第二个字母代表预测结果,P为正样本,N为负样本。

TN(True Negtive) :预测为负样本且预测正确。(预测:负样本;真值:负样本)
TP(True Positve) :预测为正样本且预测正确。(预测:正样本;真值:正样本)
FN(False Negtive):预测为负样本且预测错误。(预测:负样本;真值:正样本)
FP(False Positive):预测为正样本且预测错误。(预测:正样本;真值:负样本)

用书中的一张图来看再清楚不过了

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第1张图片

二、Precision and Recall

1.Precision

precision:分类器的精度,指分类器判定为正样本中真值也为正样本的比例。

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第2张图片

2.Recall

recall:分类器的召回率,真值为正样本中预测正确的概率。

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第3张图片

3.Accuracy

accuracy:分类器的准确率,所有分类正确样本占总样本的比例。

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第4张图片

三、Measures

1.F1-score

F1-score是一个可以将精度和召回率综合表达的指标,可以用来简单比较两个分类器的性能。F1-score是精度和召回率的调和平均值,相比于常规的求平均方法,该方法可以赋予低值更高的权重,也就是说在精度和召回率都很高的情况下F1-score的值才会很高。
在这里插入图片描述

2.Precision/Recall Tradeoff

F1-score对于精度和召回率相似的分类器更为有利。但有些情况下我们会关注较高的精度或召回率。例如对儿童安全视频检测的任务会更关注于只保留好的视频,宁可以舍弃掉一些好视频为代价。也就是需要高精度,低召回率。而在超市小偷警报任务中,宁可多次发生错误警报也要在小偷来时发起警报。不幸的是,你不能同时拥有它:提高精度会降低召回率,反之亦然。这称为精度/召回权衡。

以下图为例:最左侧为判定为负样本,最右侧为判定为正样本,中间部分可根据阈值(分类器的严格程度)判定为正样本或负样本。图中最上边为不同阈值下的精度与召回率。可以看到随着阈值的改变,精度和召回率的增长是相反的。

Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第5张图片

3.The ROC Curve

ROC(receiver operating characteristic)曲线是另一种衡量二元分类器的指标。ROC曲线不是绘制精度与召回率的关系,而是真阳率(true positive rate = recall)与假阳率(false positive rate)的关系。FPR 是被错误分类为正例的负例的比率。FPR又等于1-真负率(true negative rate, specificity)。因此ROC区间就是绘制敏感性(recall, sensitivity)与1-特异性(true negative rate, specificity)之间的关系。

FPR = FP/(FP+TN)
	= 1-TN/(FP+TN)
Hands-On-Machine-Learning-with-Scikit-Learn-Keras-and-Tensorflow读书笔记_第6张图片

ROC曲线如上图所示,再次有一个权衡:即召回率越高,产生的误报就越高。虚线代表纯随机分类器的ROC曲线;一个好的分类器尽可能远离那条线。
一种常用的比较分类器的方法就是计算ROC曲线与坐标轴围成的面积AUC(area under the curve)。ROC的AUC越接近1则表示该分类器性能越好,纯随机分类器AUC等于0.5。

总结

以上就是关于percision和recall相关知识和概念的总结啦。写到最后把自己都给写迷糊了。蟹蟹大家观看,有什么问题及时批评指正。

你可能感兴趣的:(机器学习,人工智能)