林轩田机器学习基石心得8:Noise and Error

注:本文为博主观看视频后的心得与总结,详细笔记可戳:
http://blog.csdn.net/red_stone1/article/details/71512186

0. 前言

  • 上一节课中讲解了VC唯及其意义,证明只要假设函数集的VC维是有限的,那么在样本足够的情况下机器学习就是可行的。
  • 这一节课中主要讲解数据中存在Noise时机器学习是否可行,及几种错误估计方法。

1. Noise and Probablistic target

  • 噪声点(Noise)的三种情况:

    1. 由于人为因素,正类被误分为负类,或者负类被误分为正类;
    2. 同样特征的样本被模型分为不同的类;
    3. 样本的特征被错误记录和使用。
  • 噪声点下的区别:

    • 无噪声时:称为Deterministic。每个特征对应的标签都是确定的。
    • 存在噪声时:Noise。每个特征对应的标签都是个概率, P(y|x)

    无噪声可以看成特殊的概率分布,即概率为1或0。

2. Error Measure

  • PointWise error:错误衡量方法。对数据集的每个点计算错误并计算平均。通常可分为两类:0/1 error和squared error。0/1 error通常用在分类(classification)问题上,而squared error通常用在回归(regression)问题上。

  • Ein Eout 的 PointWise error:
    林轩田机器学习基石心得8:Noise and Error_第1张图片

  • 0/1 error和squared error:

    • 0/1error:如果两个一样就为1,否则为0。
    • squared error:将两个数相减后平方。
      林轩田机器学习基石心得8:Noise and Error_第2张图片

3. Algorithmic Error Measure

  • 两种错误:false accept和false reject。false accept意思是误把负类当成正类,false reject是误把正类当成负类。我们在对待两种问题时应该有所区别。比如说支付宝指纹解锁,要是他人的指纹也可以解锁那么损失就会很大,但是自己的指纹解锁不了损失就不会那么大。
    林轩田机器学习基石心得8:Noise and Error_第3张图片

  • 算法中的错误估计:机器学习演算法A的cost function error估计有多种方法,真实的err一般难以计算(NP-hard),主要有两种方法:plausible或者friendly。

    • plausible:找到一种说服自己的方法。
    • friendly:找到一些近似最优的方案。
      林轩田机器学习基石心得8:Noise and Error_第4张图片

4. Weighted Classification

这一部分中考虑在Pocket算法中,不同错误分类存在权重时的算法变更。

  • 当不同的分类方法具有权重时,比如说:
    林轩田机器学习基石心得8:Noise and Error_第5张图片
    此时我们需要做两步修改:
    1. 在Pocket算法中我们会选择一个错误样本,在这里我们需要更高概率选择y=-1的样本,概率为y=1的1000倍。
    2. 计算错误率 Ein 时,更改公式:
      林轩田机器学习基石心得8:Noise and Error_第6张图片

5. 总结

本节课证明当Noise的存在时,VC维的定理依然成立,并介绍了机器学习中0/1和最小二乘两种错误评估方法。并考虑在不同的错误存在权重时,如何对算法进行更改。

你可能感兴趣的:(机器学习,机器学习基石笔记,机器学习)