机器学习基石——Noise and Error

noise

对于真实场景而言,大规模数据集多少会有一些noise。

数据集中的noise来源:1)来源于x,采集特征时出现错误;2)来源于y,打标签时出错。

有noise情况与理想情况区别:原来对于某个x,y是确定值;当有了noise之后,对于某个x,y是一个概率分布 P ( y ∣ x ) P(y|x) P(yx)

有noise情况VC bound不等式是否依然成立:如果数据集标签按照 P ( y ∣ x ) P(y|x) P(yx)分布,且数据集是i.i.d.(独立同分布)的,那么之前证明机器可以学习的方法依然奏效——VC Dimension有限,样本足够情况下,仍可得到 E i n ≈ E o u t E_{in}\approx E_{out} EinEout
依然成立的原因是:原来的不等式中​​​​​​
机器学习基石——Noise and Error_第1张图片
有noise以后只是把 f ( x ) f(x) f(x)替换为 P ( y ∣ x ) P(y|x) P(yx) y n y_n yn替换为 P ( y ∣ x n ) P(y|x_n) P(yxn),推导过程完全不变,所以VC bound还是成立。

有noise情况 f ( x ) f(x) f(x) g ( x ) g(x) g(x)具体含义
在有noise情况下,当 h h h尽可能接近 f f f时, E i n E_{in} Ein是最小的,所以在这里 f f f仍然是机器学习的目标函数,称为ideal mini-target function,此时最终学习的 g g g仍然是在尽可能模仿 f f f

启发

  1. 在实际的机器学习问题中,P(y|x)是未知的。但是通过选用不同的err,可以隐含地决定ideal mini-target function,也就是我们的算法学习的目标函数。

  2. 在实际情况中,假如20%的标签是错误的,只有80%的标签是正确的,那么机器学习的正确率的上限就是80%。

error

错误度量方法:0/1 error,squared error(一般用于回归);当然后面随着不同的任务和模型特性还会诞生很多错误评估方法。
ps. 有noise情况下, P ( y ∣ x ) P(y|x) P(yx)和error联合在一起,才能决定ideal mini-target function—— f ( x ) f(x) f(x)

weighted error

不同的样本(x_n,y_n)有不同的重要性,犯错的代价是不一样,当样本比较重要时,可以增加其error的权重。
比如样本非常不均衡的时候,我们希望样本比较少的一类更受重视一点,所以可以增加这一类error权重。因为如果不受重视,那么极端情况下只要模型将所有样本都判为样本多的那一类,error值仍然可以下降很多,但这样就失去学习的意义了。

你可能感兴趣的:(算法,人工智能,机器学习基石,noise,and,error)