机器学习之路03——性能度量

衡量模型泛化能力的怕评价标准
错误率与精度
查准率(P)、查全率(R)(P-R曲线)与F1
查准率(精度):衡量某一检索系统的信号噪声比的一种指标,即检出的相关文献量与检出的文献量的百分比(P=真正例(TP)/(真正例(TP)+假正例(FP)))
查全率(召回率):衡量某一检索系统从文献中检出相关文献成功度的一项指标,即检出的相关文献量与检索系统中相关文献量的百分比(真正例(TP)/(真正例(TP)+假反例(FN)))

P-R曲线(若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可以断言后者的性能由于前者,如果两个学习器的P-R曲线发生了交叉,则无法断言两个比较器性能孰优孰劣,但是,P-R曲线包住的面积在一定程度上表征了学习器在查准率和查全率上取得双高的比例。“平衡点”(Break-Even Point BEP)是“查准率=查全率”时的取值,谁高谁优)
F1度量(基于查准率与查全率的调和平均):1/F1=(1/2)*(1/P+1/R)
Fβ度量(加权调和平均):1/Fβ=(((1+β2)PR)/((β2*P)+R)):表达出对查准率/查全率的不同偏好,β>0度量了查全率对查准率的相对重要性β=1时退化为标准的F1β>1时查全率有更大的影响β<1时查准率有更大的影响
ROC:排序本身的质量的好坏,体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏,或者说,“一般情况下”泛化性能的好坏,ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具,其全称“受试者工作特征”(Receiver Operating Characteristic)曲线,我们根据学习器的预测结果对样例进行排序,按此顺序逐个吧样本作为正例进行预测,每次计算出两个重要的值,分别以他们为横(真正例率(TPR=(TP/(TP+FN))))、纵坐标(假正例率(FPR=FP/(TN+FP)))作图,就得到了“ROC曲线”,若一个学习器的ROC曲线被另外一个学习器的曲线完全包住,则可以断言后者的学习器性能更优;若两个学习器的ROC曲线发生交叉,则可以比较所围面积(AUC)

你可能感兴趣的:(机器学习之路03——性能度量)