机器学习 第二章 总结(西瓜)

经验误差与选择

均方误差一般定义 : E(f;D)=\frac{1}m\sum_{n=1}^{m}(f(x_i)-y_i)^2
错误率:E(f;D)=\frac{1}m\sum_{n=1}^{m}I(f(x_i)\neq y_i)
精度:\begin{aligned} acc(f;D) &=\frac{1}m\sum_{n=1}^{m}I(f(x_i)=y_i) \\&= 1-E(f;D)\end{aligned}


机器学习 第二章 总结(西瓜)_第1张图片
分类结果混淆矩阵

准确率(查准率):从预测结果的角度看,预测正确的占比P=\frac{TP}{TP+FP}

召回率(查全率):从真实情况的角度看,预测正确的占比R=\frac{TP}{TP+FN}


机器学习 第二章 总结(西瓜)_第2张图片
P-R曲线与平衡点示意图

"平衡点" (Break-Event Point,简称BEP)就是这样一个度量,它是" 准确率(查准率)=召回率(查全率)"时的取值,如上图中学习器C 的BEP 是0 . 64,而基于BEP
的比较,可认为学习器A 优于B 。 (BEP越大越好)


F1范数:
F1 是基于查准率与查全率的调和平均(harinonic mean)定义的:\frac{1}{F1} = \frac{1}{2}*(\frac{1}{P}+\frac{1}{R})
F1的更一般形式为 F_\beta, 能够表达出对准确率(查准率)和召回率(查全率)的不同偏好:\frac{1}{F_\beta} = \frac{1}{1+\beta^2}*(\frac{1}{P}+\frac{\beta^2}{R})

注:调和平均数更重视极小值的影响

"真正例率" (True Positive Rate,简称TPR): TPR = \frac{TP}{TP+FN}

注:TPR 和召回率一样

"假正例率" (False Positive Rate,简称FPR):FPR = \frac{FP}{TN+FP}

注:真实负样本中,被预测错的占比
机器学习 第二章 总结(西瓜)_第3张图片
ROC曲线与AUC

经验误差与选择

你可能感兴趣的:(机器学习 第二章 总结(西瓜))