基于支持向量机的文本分类算法研究(三)—— 核函数文本分类性能评价指标(stitp项目)

3 核函数评价指标

核函数评价指标,即准确率(P)、召回率®和 F1 值,通过这几个数值,可以直观的反映核函数的性能,也使得支持向量机核函数评价科学化、准确化。本次实验函数从特征值 1000循环五十次得出运行文件,得到每个核函数准确率(P)、召回率®和 F1 值后在取得均值。

3.1 R值:查全率(Recall rate)

在这里插入图片描述
查全率(Recall rate),又称召回率,是指从数据库中检测到的相关信息数量与总量的比率。召回率的绝对值难以计算,只能根据数据库的内容和数量进行估计。召回率是评价某个搜索系统从文献搜集中找出关联文档成功率的指标,即关联文献与全部文献的比值。一般表示成:查全率=(搜索获得的关联数据量/系统当中的关联数据总量)*100%。表达式(3-1)是查全率计算式:

3.2 P值:查准率(Precision)

在这里插入图片描述
查准率(Precision)(精确度)是评价某个搜索系统的信噪比的一类指标,即检索获得的关联文档和检索获得的所有文档的比值。一般表示成:查准率=(搜索获得的关联信息量/搜索获得的信息总量)*100%。
查准率和查全率二者是相互作用的,理想状况下是二者数值都比较高。但是,它们两者之间是相互的,单纯提高其中一个性能可能导致另一个性能的下降。如果是搜索问题,则需要在保证查全率的条件下,提高查准率;如果是过滤问题,则需要在确保查准率的条件下,提高查全率。

3.3 F1:权衡指数

为权衡查全率和查准率,很多时候,文本分类中有趣类别的实例很少。信息检索问题中负面类别的过多表现可能导致使用准确性来评估分类器性能的问题。由于精度不是偏斜数据集的良好度量,因此在这种情况下算法的分类性能通过精度和召回来衡量。此外,精确和恢复的结合是为了更好地了解分类器的性能。
这是通过将它们组合在以下公式中来完成的:为权衡查全率和查准率,Lewis 指出Fβ是用于评估文档类型划分的性能。Fβ 度量能够采取下面计算式:
在这里插入图片描述
其中和分别表示预设和召回。是一个正参数,代表评估任务的目标。如果认为预约更重要,那么的值会收敛为零。另一方面,如果召回比预定更重要,那么会收敛到无穷大。通常将设置为1,因为这样对每个预设和召回都给予同等重要。

有多种方法可以确定有效性;但是,最常使用的是精确度,召回率和准确度。 要确定这些,首先必须首先了解文件的分类是(被判定为正样本,事实上也是正样本),(被判定为正样本,但事实上是负样本),(被判定为负样本,事实上也是负样本)还是(被判定为负样本,但事实上是正样本)。可以用表格清晰地表示为:
分类情况表1
基于支持向量机的文本分类算法研究(三)—— 核函数文本分类性能评价指标(stitp项目)_第1张图片
分类情况表2基于支持向量机的文本分类算法研究(三)—— 核函数文本分类性能评价指标(stitp项目)_第2张图片
除了上述常用的评价标准外,准确率在文本分类评价中还没有得到广泛的应用但也可以用来评价文本分类器的分类性能。准确度通常用作分类技术的度量。
然而,准确度值对于正确决策数量的变化不如精确度和召回率那么勉强,正确的速率计算方法是
在这里插入图片描述

你可能感兴趣的:(stitp项目)