kappa系数简介---一致性与分类准确度指标

kappa系数简介

kappa系数是什么
Kappa系数是一个用于一致性检验的指标,也可以用于衡量分类的效果。因为对于分类问题,所谓一致性就是模型预测结果和实际分类结果是否一致。kappa系数的计算是基于混淆矩阵的,取值为-1到1之间,通常大于0。

为什么要使用kappa
分类问题中,最常见的评价指标是acc,它能够直接反映分正确的比例,同时计算非常简单。但是实际的分类问题种,各个类别的样本数量往往不太平衡。在这种不平衡数据集上如不加以调整,模型很容易偏向大类别而放弃小类别(eg: 正负样本比例1:9,直接全部预测为负,acc也有90%。但正样本就完全被“抛弃”了)。此时整体acc挺高,但是部分类别完全不能被召回。

这时需要一种能够惩罚模型的“偏向性”的指标来代替acc。而根据kappa的计算公式,越不平衡的混淆矩阵,kappa值就越低,正好能够给“偏向性”强的模型打低分。

基于混淆矩阵的kappa系数计算公式如下:
在这里插入图片描述

其中,
在这里插入图片描述
在这里插入图片描述
p e p_e pe即所有类别分别对应的“实际与预测数量的乘积”,之总和,除以“样本总数的平方”。

你可能感兴趣的:(机器学习,深度学习,kappa,一致性)