机器学习算法评价指标

在使用机器学习算法的过程中,针对不同场景需要不同的评价指标,在这里对常用的指标进行一个简单的汇总。

一、分类
1. 精确率与召回率
描述:精确率与召回率多用于二分类问题。精确率(Precision)指的是模型判为正的所有样本中有多少是真正的正样本;召回率(Recall)指的是所有正样本有多少被模型判为负样本。
公式:
结果:需要在精确率与召回率间进行权衡,一种选择是画出精确率-召回率曲线(Precision-Recall Curve),曲线下的面积被称为AP分数(Average precision score);另外一种选择是计算Fβ分数,是分类与信息检索中最常用的指标之一。

ROC
公式:设模型输出的正样本集合为A,真正的正样本集合为B,所有样本集合为C,我们称|A⋂B||B||A⋂B||B|为真正率(True-positive rate),|A−B||C−B||A−B||C−B|为假正率(False-positive rate)。
结果:ROC曲线适用于二分类问题,以假正率为横坐标,真正率为纵坐标的曲线图,AUC分数是曲线下的面积(Area under curve),越大意味着分类器效果越好。

对数损失
描述:对数损失(Log loss)亦被称为逻辑回归损失(Logistic regression loss)或交叉熵损失(Cross-entropy loss)。
公式:

铰链损失
描述:铰链损失(Hinge loss)一般用来使“边缘最大化”(maximal margin)。
混淆矩阵
描述: 混淆矩阵(Confusion Matrix)又被称为错误矩阵,通过它可以直观地观察到算法的效果。它的每一列是样本的预测分类,每一行是样本的真实分类(反过来也可以),顾名思义,它反映了分类结果的混淆程度。混淆矩阵i行j列的原始是原本是类别i却被分为类别j的样本个数,计算完之后还可以对之进行可视化

kappa系数
描述:kappa系数(Cohen’s kappa)用来衡量两种标注结果的吻合程度,标注指的是把N个样本标注为C个互斥类别。
公式:
结果:po是观察到的符合比例,pe是由于随机性产生的符合比例。当两种标注结果完全相符时,K=1,越不相符其值越小,甚至是负的。

准确率
描述:准确率(Accuracy)衡量的是分类正确的比例。
公式:
结果:当预测结果与真实情况完全相符时准确率为1,两者越不相符准确率越低。对多标签区分度较大。

海明距离
描述:海明距离(Hamming Distance)用于需要对样本多个标签进行分类的场景。
公式:
结果:当预测结果与实际情况完全相符时,距离为0;当预测结果与实际情况完全不符时,距离为1;当预测结果是实际情况的真子集或真超集时,距离介于0到1之间。

9 多标签排序

在这节我们介绍一些更精细化的多标签分类效果衡量工具。设真实标签分类情况为y∈{0,1}nsamples×nlabelsy∈{0,1}nsamples×nlabels,分类器预测情况为f^∈Rnsamples×nlabelsf^∈Rnsamples×nlabels。

9.1 涵盖误差:涵盖误差(Coverage error)计算的是预测结果中平均包含多少真实标签,适用于二分类问题。
9.2 标签排序平均精度:标签排序平均精度(Label ranking average precision)简称LRAP,它比涵盖误差更精细。

二、拟合

平均绝对误差
平均绝对误差MAE(Mean Absolute Error)

平均平方误差
平均平方误差MSE(Mean Squared Error)

解释变异
解释变异( Explained variance)是根据误差的方差计算得到的

决定系数
决定系数(Coefficient of determination)又被称为R2

三、聚类
1 . 兰德指数:RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。
调整兰德系数(Adjusted rand index)被提出,它具有更高的区分度。ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。

互信息
互信息(Mutual Information)也是用来衡量两个数据分布的吻合程度。利用基于互信息的方法来衡量聚类效果需要实际类别信息,MI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。

轮廓系数
轮廓系数(Silhouette coefficient)适用于实际类别信息未知的情况。对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值。轮廓系数取值范围是[−1,1],同类别样本越距离相近且不同类别样本距离越远,分数越高。

四、总结
Python机器学习开源项目scikit-learn实现了上述绝指标的大多数。

你可能感兴趣的:(机器学习)