Binary classification 二分类和混淆矩阵的概念

本文参考:http://www.cnblogs.com/rainduck/archive/2012/11/11/2765395.html

最近在coursera学习《Mastering Data Analysis in Excel》课程,第一周还很简单,第二周开始学习Binary classification,从没接触过的概念,又是英语授课,所以有点蒙了,赶紧网上补充学习下:

FN:False Negative,被判定为负样本,但事实上是正样本。

​FP:False Positive,被判定为正样本,但事实上是负样本。

​TN:True Negative,被判定为负样本,事实上也是负样本。

​TP:True Positive,被判定为正样本,事实上也是正样本。​

这样比较好记忆:把缩写分为两个部分,第一个字母(F,T)和第二个字母(P,N)。首先搞清楚第二个字母,即它是你认为该样本的归属应该是怎样(Positive or Negative);第一个字母即是对你的判断进行的评价(False or True)。这里也许中文可能会有不好理解的地方,所以我想用英文来描述,可能更清晰:第二个字母:What's your judgement about the sample?;第一个字母:Is your judgement right(true) or not(false)?

Precision​ Ratio: 查准率,即在检索后返回的结果中,真正正确的个数占你认为是正确的结果的比例。

Recall Ratio: 查全率,即在检索结果中真正正确的个数,占整个数据集(检索到的和未检索到的)中真正正确个数的比例。

Precision= TP/(TP+FP) ,即下图中的1/(1+3),检索结果中,都是你认为应该为正的样本(第二个字母都是P),但是其中有你判断正确的和判断错误的(第一个字母有T ,F)。

​Recall = TP/(TP+FN),即下图中的1/(1+2),你判断为正的样本也确实为正的,以及那些没在检索结果中被你判断为负但是事实上是正的(FN)。

Binary classification 二分类和混淆矩阵的概念_第1张图片

Binary classification 二分类和混淆矩阵的概念_第2张图片

你可能感兴趣的:(数据分析,混淆矩阵,二分类)