2. 错误与噪音

在真实数据中,错误与噪音是不可避免的,对于这些问题的处理也同样非常重要。

错误评估

为了衡量模型的总体效果,我们统计总体错误,而总体误差的评估依据是每个数据点处所得到的误差情况。

image.png
选择误差函数

以指纹识别为例进行说明:


f f
+1 -1
h +1 no error 错误接受
h -1 错误拒绝 no error

误差在不同的应用领域会带来不同的代价。

  • 例如超市优惠权限验证
    本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
    而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。

那么此时误差惩罚的权重应该对拒绝误差加重。

+1 -1
+1 0 1
-1 10 0
  • 例如中情局权限验证
    本应享受优惠的VIP受到拒绝时,可能会使得超市失去大客户。
    而本不应该享受优惠的客户错误的给予优惠,并没有什么损失。
    让没有权限的人进入会产生严重后果。
    而让雇员多次尝试后才进入并没有什么影响。

那么此时误差惩罚的权重应该对接受误差加重。

+1 -1
+1 0 1000
-1 1 0
噪音数据

因为种种原因,我们所获得的数据不可能是纯净的,比如:
x1 = x2 但 y1 != y2
所以很多时候我们不直接使用 y = f(x) 而是使用p(y|x)

学习总结

学习过程中,下图中的上式是我们所知道的,下式是我们所需要求解出的。上式给了我们的模型泛化的能力,当我们所最终确定的函数g在样本中的误差Ein较小时,因为Eout≈Ein,那么就可以得到一个Eout ≈ 0的结果。


所以,学习问题被分为了两个部分:


image.png

以上两点无法同时满足,需要一些调和。


image.png

你可能感兴趣的:(2. 错误与噪音)