【机器学习理论】分类评估标准

分类评估指标:

混淆矩阵:每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目,每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目,每一列中的数值表示真实数据被预测为该类的数目

True positives(TP):被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数(样本数)

False positives(FP):被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数

False negatives(FN):被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数

True negatives(TN):被正确地划分为负例的个数,即实际为负例且被分类器划分为负例的实例数

正确率(accuracy),accuracy=(TP+TN)/(P+N)即分类正确的数量除以样本总数量

错误率(error rate):被分类器错分的比例,error rate = (FP+FN)/(P+N),accuracy=1-error rate

准确率(precision),precision=TP/(TP+FP)即正确的分类为正例的数量除以分为正例的总数

召回率(recall),recall=TP/(TP+FN)=TP/P=sensitive即正确的分类为正例的数量除以实际为正例的总数

灵敏度(sensitive),sensitive = TP/P即所有正例中被分对的比例,衡量了分类器对正例的识别能力

特效度(specificity),specificity = TN/N即所有负例中被分对的比例,衡量了分类器对负例的识别能力

准确率与召回率之间TradeOff相互制约,两者结合的评估指标F-Measure(F1-Score):

F1=2/(1/precision+1/recall)=2precision*recall/(precision+recall)=TP/(TP+(FN+FP)/2)

ROC曲线:以FPR为横坐标TPR为纵坐标的曲线,曲线越趋近与(0,1)点模型分类越准确

TPR(True Positive Rate):所有实际为正例的样本中被正确的分类为正例的比例,TPR=TP/(TP+FN)

FPR(False Positive Rate):所有实际为负例的样本中被错误的分类为正例的比例,FPR=FP/(FP+TN)

AUC面积:以FPR为横坐标TPR为纵坐标的曲线与横坐标的面积

你可能感兴趣的:(机器学习)