机器学习笔记-第二章模型评估与选择1

错误率(error rate):分类错误的样本数占样本总数的比例。
精度 = 1 - 错误率
误差(error):学习器的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差
泛化误差:在新样本上的误差。

划分训练集和测试集:

1、留出法:直接将数据集 D D D划分为两个互斥的集合。
2、交叉验证法:现将数据集 D D D划分为 k k k个大小相似的互斥子集,每个子集 D i D_i Di都尽可能保持数据分布的一致性,即从 D D D中通过分层采样得到。然后,每次用 k − 1 k-1 k1个子集的并集作为训练集,余下的那个子集作为测试集,最后返回这 k k k个测试结果的均值。
3、自助法:以自助采样法为基础,给定包含 m m m个样本的数据集 D D D,每次随机从 D D D有放回的抽取一个样本,将其放入 D ′ D' D,重复执行 m m m次,则得到一个包含 m m m个样本的数据集 D ′ D' D。将 D ′ D' D用作训练集, D / D ′ D/D' D/D用作测试集。
(自助法产生的数据会改变初始数据集的分布,引入估计偏差)

性能度量

1、均方误差(回归):
E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 . E(f;D) = \frac{1}{m}\sum_{i=1}^m (f(x_i)-y_i)^2. E(f;D)=m1i=1m(f(xi)yi)2.
对于数据分布和概率密度函数 p ( . ) p(.) p(.)
E ( f ; D ) = ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d t . E(f;D) = \int_{x\sim D} (f(x)-y)^2p(x)dt. E(f;D)=xD(f(x)y)2p(x)dt.
2、错误率:
E ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) . E(f;D) = \frac{1}{m}\sum_{i=1}^m I(f(x_i)\neq y_i). E(f;D)=m1i=1mI(f(xi)=yi).
3、 查准率和查全率
机器学习笔记-第二章模型评估与选择1_第1张图片
查准率-查全率曲线:
机器学习笔记-第二章模型评估与选择1_第2张图片在进行比较时,若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”,则可断言后者的性能优于前者,如图中的B优于C;如果两个学习器的P-R曲线发生了交叉,则难以比较

平衡点(BEP):查准率=查全率时的取值,则可知A优于B。

F1度量:
F 1 = 2 × P × R P × R = 2 × T P 样 例 总 数 + T P − T N F1= \frac{2\times P\times R}{P\times R}=\frac{2\times TP}{样例总数+TP-TN} F1=P×R2×P×R=+TPTN2×TP
F1度量的一般形式—— F β F_\beta Fβ:能表达出对查准率 / / /查全率的不同偏好:
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R F_\beta= \frac{(1+\beta^2)\times P\times R}{(\beta^2\times P)+R} Fβ=(β2×P)+R(1+β2)×P×R
有多个二分类混淆矩阵时:
① 分别计算出查准率和查全率,再计算平均值。
宏 查 准 率 ( m a c r o _ P ) = 1 n ∑ i = 1 n P i 宏查准率(macro\_P)=\frac{1}{n} \sum_{i=1}^n P_i macro_P=n1i=1nPi
宏 查 全 率 ( m a c r o _ R ) = 1 n ∑ i = 1 n R i 宏查全率(macro\_R)=\frac{1}{n} \sum_{i=1}^n R_i macro_R=n1i=1nRi
宏 F 1 ( m a c r o _ F 1 ) = 2 × m a c r o _ P × m a c r o _ R m a c r o _ P + m a c r o _ R 宏F1(macro\_F1)=\frac{2\times macro\_P\times macro\_R}{macro\_P+macro\_R} F1macro_F1=macro_P+macro_R2×macro_P×macro_R
② 先将个混淆矩阵对应的元素平均,再基于这些平均值计算。
微 查 准 率 ( m i c r o _ P ) = T P ‾ T P ‾ + F P ‾ 微查准率(micro\_P)=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} micro_P=TP+FPTP
微 查 全 率 ( m i c r o _ R ) = T P ‾ T P ‾ + F N ‾ 微查全率(micro\_R)=\frac{\overline{TP}}{\overline{TP}+\overline{FN}} micro_R=TP+FNTP
微 F 1 ( m i c r o _ F 1 ) = 2 × m i c r o _ P × m i c r o _ R m i c r o _ P + m i c r o _ R 微F1(micro\_F1)=\frac{2\times micro\_P\times micro\_R}{micro\_P+micro\_R} F1micro_F1=micro_P+micro_R2×micro_P×micro_R

ROC (受试者工作特征曲线)

纵轴为“真正例率”(TPR): T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
横轴为“假正例率”(FPR): F P R = F P T N + F P FPR=\frac{FP}{TN+FP} FPR=TN+FPFP
机器学习笔记-第二章模型评估与选择1_第3张图片机器学习笔记-第二章模型评估与选择1_第4张图片 A U C = 1 2 ∑ i = 1 m − 1 ( x i + 1 − x i ) ⋅ ( y i + y i + 1 ) AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot (y_i+y_{i+1}) AUC=21i=1m1(xi+1xi)(yi+yi+1)
机器学习笔记-第二章模型评估与选择1_第5张图片

代价敏感错误率与代价曲线

表 2 _ 二 分 类 代 价 矩 阵 表2\_ 二分类代价矩阵 2_

真实类别 预测类别
第0类(正类) 第1类(反类)
第0类(正类) 0 c o s t 01 cost_{01} cost01
第1类(反类) c o s t 10 cost_{10} cost10 0

其中 c o s t i j cost_{ij} costij表示将第 i i i类样本预测为第 j j j类样本的代价。若将第0类判别为第1类所造成的损失更大,则 c o s t 01 > c o s t 10 cost_{01}>cost_{10} cost01>cost10;损失程度相差越大, c o s t 01 cost_{01} cost01 c o s t 10 cost_{10} cost10值的差别越大。
一般情况下,重要的是代价比值而非绝对值。
代 价 敏 感 错 误 率 : E ( f ; D ; c o s t ) = 1 m ( ∑ x i ∈ D + I ( f ( x i ) ≠ y i ) × c o s t 01 + ∑ x i ∈ D − I ( f ( x i ) ≠ y i ) × c o s t 10 ) . 代价敏感错误率:E(f;D;cost)=\frac{1}{m}(\sum_{x_i\in D^+}I(f(x_i)\neq y_i)\times cost_{01}+\sum_{x_i\in D^-}I(f(x_i)\neq y_i)\times cost_{10}). E(f;D;cost)=m1(xiD+I(f(xi)=yi)×cost01+xiDI(f(xi)=yi)×cost10).
代价曲线
横轴是取值为[0,1]的正例概率代价:
P ( + ) c o s t = p × c o s t 01 p × c o s t 01 + ( 1 − p ) × c o s t 10 P(+)cost=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}} P(+)cost=p×cost01+(1p)×cost10p×cost01
其中 p p p是样例为正例的概率。
纵轴是取值为[0,1]的归一化代价:
c o s t n o r m = F N R × p × c o s t 01 + F P R × ( 1 − p ) × c o s t 10 p × c o s t 01 + ( 1 − p ) × c o s t 10 cost_{norm}=\frac{FNR\times p \times cost_{01}+FPR\times (1-p) \times cost_{10}}{ p \times cost_{01}+(1-p) \times cost_{10}} costnorm=p×cost01+(1p)×cost10FNR×p×cost01+FPR×(1p)×cost10
其中 F P R FPR FPR是假正例率, F N R = 1 − T P R FNR=1-TPR FNR=1TPR是假反例率。
机器学习笔记-第二章模型评估与选择1_第6张图片机器学习笔记-第二章模型评估与选择1_第7张图片

你可能感兴趣的:(机器学习,机器学习)