招回率和正确率

召回率和准确率是数据挖掘中预测、互联网中的搜索引擎等经常涉及的两个概念和指标。
召回率 :Recall,又称“查全率”——还是查全率好记,也更能体现其实质意义。
准确率 :Precision,又称“精度”、“正确率”。

以检索为例,可以把搜索情况用下图表示:
相关
不相关
检索到
A
B
未检索到
C
D

 

 



A:检索到的,相关的                               (搜到的也想要的)
B:检索到的,但是不相关的                   (搜到的但没用的)
C:未检索到的,但却是相关的               (没搜到,然而实际上想要的)
D:未检索到的,也不相关的                   (没搜到也没用的)

如果我们希望:被检索到的内容越多越好,这是追求“查全率”, 即A/(A+C),越大越 好。
如果我们希望:检索到的文档中,真正想要的、也就是相关的越多越好,不相关的越少越好,这是追求“准 确率”,即A/(A+B),越大越好。
 
“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),在实际应用中,是相互制约的。要根据实际需求,找到一个平衡点。

往往难以迅速反应的是“召回率”。我想这与字面意思也有关系,从“召回”的字面意思不能直接看到其意义。“召回”在中文的意思是:把xx调回来。“召回率”对应的英文“recall”,recall除了有上面说到的“order sth to return”的意思之外,还有“remember”的意思。
Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.

当我们问检索系统某一件事的所有细节时(输入检索query查询词),Recall指:检索系统能“回忆”起那些事的多少细节,通俗来讲就是“回忆的能力”。“能回忆起来的细节数” 除以 “系统知道这件事的所有细节”,就是“记忆率”,也就是recall——召回率。简单的,也可以理解为查全率

--------------------------------------

正确率,召回率和F值 

正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。

        不妨看看这些指标的定义先:

正确率 = 正确识别的个体总数 /  识别出的个体总数

召回率 = 正确识别的个体总数 /  测试集中存在的个体总数

F值  = 正确率 * 召回率 * 2 / (正确率 + 召回率)

        不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Seaeagle撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:

正确率 = 700 / (700 + 200 + 100) = 70%

召回率 = 700 / 1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%

        不妨看看如果Seaeagle把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:

正确率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%

        由此可见,正确率是评估捕获的成果中目标成果所占得比例;召回率,顾名思义,就是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。


你可能感兴趣的:(招回率和正确率)